Úvod do strojového učení v systému R

Sylabus

Strojové učení - základní koncepty, ukázky praktických aplikací, teoretické základy. Učení s učitelem, učení bez učitele. Klasifikační a regresní úlohy. Klasifikace do dvou nebo více tříd. Trénovací a testovací příklady. Vektory příznaků. Cílový atribut a predikční funkce. Vývojový cyklus strojového učení. Prokletí dimenzionality. Metody shlukování.

Rozhodovací stromy. Algoritmus učení, kritéria větvení a prořezávání. Náhodné lesy.

Lineární a logistická regrese. Metoda nejmenších čtverců. Diskriminativní klasifikátor.

Učení založené na příkladech. Algoritmus k-NN.

Naivní Bayesův klasifikátor. Bayesovské sítě.

Metoda podpůrných vektorů. Klasifikátor pro lineárně separabilní a neseparabilní třídy. Kernelové funkce.

Metody pro kombinaci prediktorů. Nestabilní algoritmy učení. Bagging a boosting. Algoritmus AdaBoost.

Parametry ve strojového učení, ladění hyperparametrů. Prohledávání prostoru parametrů. Metoda největšího spádu. Metoda maximální věrohodnosti.

Vyhodnocování experimentů. Práce s testovacími daty. Výběrová chyba, generalizační chyba. Křížová validace, metoda leave-one-out. Metoda bootstrap. Míry úspěšnosti. Vyhodnocování binárních klasifikátorů. Křivka ROC.

Statistické testy. Statistické hypotézy, jednovýběrový a dvouvýběrový t-test, chí-kvadrát testy. Hladina významnosti, p-hodnota. Použití statistických testů pro vyhodnocování klasifikátorů. Intervaly spolehlivosti.

Přetrénování. Jak odhalit a zabránit. Regularizace. Dekompozice chyby modelu na vychýlení a rozptyl.

Obecné principy selekce příznaků. Výběr příznaků pomocí informačního zisku, hladové algoritmy. Redukce dimenze, analýza hlavních komponent.

Základy neuronových sítí. Jednoduchý perceptron. Neuronové sítě s jednou skrytou vrstvou. Vícevrstvé dopředné modely, algoritmus zpětné propagace. Poznámky k hlubokému učení.

Anotace

Přednášky pokrývají jak teoretické základy, tak praktické algoritmy strojového učení (SU). Je kladen důraz na komplexní pochopení procesu SU, který zahrnuje analýzu dat, volbu metody SU, ladění parametrů učení a statistické vyhodnocení a porovnání výsledných modelů.

Cvičení jsou zaměřena na využití standardních knihoven statistického systému R v úlohách SU. Všechny domácí úkoly jsou praktická cvičení s použitím R, přičemž poslední úkol je nejrozsáhlejší a zahrnuje komplexní zpracování typického, nepříliš náročného problému a zpracování zprávy o variantách řešení a jejich vyhodnocení.