Charles Explorer logo
🇨🇿

Úvod do analýzy dat v R

Předmět na Filozofická fakulta |
ASGV00154

Sylabus

Témata: 0. Ještě před začátkem - samostatně si doma nainstalovat R, Rstudio, Tidyverse podle návodu 1.

Co se v kurzu naučíte (motivace), co musíte splnit, R jako software, R Studio jako uživatelské rozhraní, materiály a kde najít pomoc, R-base vs. Tidyverse, ukázky práce s R-base, datové struktury v R, vestavěné funkce v R. 2.

Import dat, transformace datových souborů (balík dplyr; funkce select, filter, arrange, mutate, summarise) 3. Práce v větším množstvím proměnných najednou (funkce across) 4.

Manipulace s datovým souborem (funkce pivot_longer, pivot_wider, *_join, bind_rows, bind_collumns) 5. Opakování funkcí za balíku dplyr a tidyr 6.

Práce s faktory (balíček  forcats) 7. Explorace dat pomocí vizualizace (balík ggplot 2) - 1.hodina 8.

Explorace dat pomocí vizualizace (balík ggplot 2) – 2. hodina 9. Estetická a funkční editace grafů (balík ggplot2, balík scales) 10.

Práce se textovými proměnnými (balíček stringr) 11. Úvod do RMarkdown a generování analytických výstupů v různých formátech  12. Opakovací hodina

Anotace

Kurz je úvodem do programovacího jazyka R vyvinutého pro statistickou analýzu dat. V kurzu není předpokládána předchozí znalost jazyka R, ale podmínkou je základní znalost popisné statistiky a výhodou jsou předchozí zkušenosti s analýzou dat. Minimálním vstupním předpokladem pro zapsání pro studenty na Katedře sociologie FF UK je absolvování kurzů prvního ročníku Statistika 1 (ASG100117) a Seminář ke statistice 1 (ASG100118) a doporučujeme si ho tedy nechat nejdříve do 2. ročníku bakalářského studia.

V kurzu vycházíme z moderního přístupu k analýze dat v R pomocí vývojového prostředí R Studio a “gramatiky” Tidyverse. Tento přístup dnes mezi uživatelskou komunitou pravděpodobně převažuje a soustředí obrovské množství dalšího vývoje.

Učit se R je běh na dlouhou trať. Je to cesta, která znamená mnohem větší časovou investici než zvládnutí softwaru s GUI, jako je například SPSS. Odměnou je mnohem větší flexibilita a v ruce univerzální nástroj pro zpracování dat, analýzu, vizualizaci, ale i programování a automatizaci. Přestože v kurzu se tak daleko nedostaneme, v R je dnes díky dostupným knihovnám a nástrojům možné vytvářet také interaktivní grafické aplikace, webové stránky, prezentace a kromě standardní statistické analýzy jsou dostupné také nástroje tzv. strojového učení. Tento kurz má smysl především pro ty studenty, kteří se chtějí ve své sociologické (či jiné vědecké) dráze zaměřovat kvantitativně a kteří jsou připraveni k samostudiu a dalšímu rozvoji skromných základů, které jim kurz nabídne.

Účast na výuce předpokládá vlastní notebook s připojením k internetu. Výuka kurzu probíhá v češtině.