Analýza dat v R pro studenty humanitních oborů

Předmět na Matematicko-fyzikální fakulta |

NPFL112

Sylabus

1. Základní pojmy R, výhody R v datové analýze jako subdisciplíně programování

2. Tabulky, vektory, načtení tabulkového souboru, vektor jako sloupec tabulky, typy veličin jako třídy vektorů, výběr (subsetting) elementů, řádků a sloupců v základním R

3. Grafická knihovna ggplot2, mapování veličin na estetické škály, typy grafů a škál (funkce geom_, scale_)

4. Čištění dat - knihovna dplyr: výběr a manipulace řádků (filter, slice, arrange) a sloupců (select, rename, mutate, if_else, case_when)

5. Čištění dat - skupiny (group_by, across, rowwise), agregace (count, summarize)

6. Sdružování tabulek (joins)

7. Koncept "tidy data", konverze mezi "širším" a "delším" formátem tabulky pro použití s dplyr a ggplot2, tidyr (pivot_longer, pivot_wider, unite and separate)

8. Operace na řetězcích, regulární výrazy vč. "look-around"

9. Koncept iterace v R: vektorizace, cyklus, funkce rodiny apply a funkce rodiny map z knihovny purrr v běžných uživatelských situacích

10. Dolování informací z textu s pomocí automatické syntaktické anotace, interakce s API syntaktického parseru UDPipe Oblíbené datasety: gapminder (https://www.gapminder.org/data/), built-in datasety iris, diamonds, corpora

Anotace

V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a typicky kvantitativní analýze (velkých) dat.

Naučíme vás:

- čistit a strukturovat data do přehledných tabulek

- odhalovat trendy, pravidelnosti, i extrémní případy

- základy moderní vizualizace

Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní analytické knihovny rodiny tidyverse.