Strojové učení - základní koncepty, ukázky praktických aplikací, teoretické základy. Učení s učitelem, učení bez učitele. Klasifikační a regresní úlohy. Klasifikace do dvou nebo více tříd. Trénovací a testovací příklady. Vektory příznaků. Cílový atribut a predikční funkce. Vývojový cyklus strojového učení. Prokletí dimenzionality. Metody shlukování.
Rozhodovací stromy. Algoritmus učení, kritéria větvení a prořezávání. Náhodné lesy.
Lineární a logistická regrese. Metoda nejmenších čtverců. Diskriminativní klasifikátor.
Učení založené na příkladech. Algoritmus k-NN.
Naivní Bayesův klasifikátor. Bayesovské sítě.
Metoda podpůrných vektorů. Klasifikátor pro lineárně separabilní a neseparabilní třídy. Kernelové funkce.
Metody pro kombinaci prediktorů. Nestabilní algoritmy učení. Bagging a boosting. Algoritmus AdaBoost.
Parametry ve strojového učení, ladění hyperparametrů. Prohledávání prostoru parametrů. Metoda největšího spádu. Metoda maximální věrohodnosti.
Vyhodnocování experimentů. Práce s testovacími daty. Výběrová chyba, generalizační chyba. Křížová validace, metoda leave-one-out. Metoda bootstrap. Míry úspěšnosti. Vyhodnocování binárních klasifikátorů. Křivka ROC.
Statistické testy. Statistické hypotézy, jednovýběrový a dvouvýběrový t-test, chí-kvadrát testy. Hladina významnosti, p-hodnota. Použití statistických testů pro vyhodnocování klasifikátorů. Intervaly spolehlivosti.
Přetrénování. Jak odhalit a zabránit. Regularizace. Dekompozice chyby modelu na vychýlení a rozptyl.
Obecné principy selekce příznaků. Výběr příznaků pomocí informačního zisku, hladové algoritmy. Redukce dimenze, analýza hlavních komponent.
Základy neuronových sítí. Jednoduchý perceptron. Neuronové sítě s jednou skrytou vrstvou. Vícevrstvé dopředné modely, algoritmus zpětné propagace. Poznámky k hlubokému učení.
Přednášky pokrývají jak teoretické základy, tak praktické algoritmy strojového učení (SU). Je kladen důraz na komplexní pochopení procesu SU, který zahrnuje analýzu dat, volbu metody SU, laděn í parametrů učení a statistické vyhodnocení a porovnání výsledných modelů.
Cvičení jsou zaměřena na využití standardních knihoven statistického systému R v úlohách SU. Všechny domácí úkoly jsou praktická cvičení s použitím R, přičemž poslední úkol je nejrozsáhlejší a zahrnuje komplexní zpracování typického, nepříliš náročného problému a zpracování zprávy o variantách řešení a jejich vyhodnocení.