Úvod do problematiky dobývání znalostí
Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.
Základní principy strojového učení – učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.
Základní paradigmata procesu dobývání znalostí
Pořizování, příprava a předzpracování dat – vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.
Transformace, redukce a čištění dat – vztahy mezi veličinami (odhad vzájemné podobnosti vzorů, testování hypotéz, korelační, regresní, diskriminační a shluková analýza), redukce dimenzionality.</li?
Vyhodnocování získaných výsledků – křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).
Metody pro dobývání asociačních pravidel
Analýza nákupního košíku – časté položky, asociační pravidla, jejich formulace a základní charakteristiky.
Generování kombinací – algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.
Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).
Metody pro klastrovou analýzu k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.
Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.
Pokročilé přístupy & škálovatelné techniky (CLARANS, BIRCH, CURE), analýza odlehlých vzorů
Metody pro klasifikaci a predikci dat
Rozhodovací stromy a jejich indukce – algoritmy ID3, C4.5, CART a CHAID.
Pravděpodobnostní klasifikátory – Bayesovské modely a techniky pro jejich učení a inferenci.
Přírodou inspirované modely – umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.
Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobýv ání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí.
Součástí kurzu bude i jednoduchý projekt s využitím metod pro dobývání znalostí v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládá se předchozí zvládnutí základních matematických dovedností a programování na úrovni běžného bakalářského studia informatiky.