Charles Explorer logo
🇨🇿

Dobývání znalostí

Předmět na Matematicko-fyzikální fakulta |
NDBX023

Sylabus

1. Úvod do problematiky dobývání znalostí Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí. Základní principy databázových systémů, datových skladů a technologie OLAP (On-Line Analytical Processing), konstrukce datových krychlí, příklady dotazů pro dobývání znalostí.

2. Základní paradigmata procesu dobývání znalostí Pořizování, příprava a předzpracování dat - vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné. Transformace, redukce a čištění dat - vztahy mezi veličinami (testování hypotéz, korelační, regresní, diskriminační a shluková analýza). Základní principy strojového učení - učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva. Vyhodnocování získaných výsledků - křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

3. Metody pro dobývání asociačních pravidel Analýza nákupního košíku - časté položky, asociační pravidla, jejich formulace a základní charakteristiky. Generování kombinací - algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat. Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

4. Metody pro klasifikaci a predikci dat Rozhodovací stromy a jejich indukce - algoritmy ID3, C4.5, CART a CHAID. Bayesovské modely - Bayesovské klasifikátory, Bayesovské sítě a techniky pro jejich učení a inferenci. Přírodou inspirované modely - umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy. Metody založené na analogii - učení založené na instancích, klasifikace podle nejbližšího souseda, případové usuzování.

5. Metody pro klastrovou analýzu k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů. Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.

6. Sociální sítě a jejich analýza Sociální sítě - jejich reprezentace a vlastnosti, SF-sítě, analýza linků a algoritmy PageRank a HITS. Aplikace - detekce komunit, evoluce v sociálních sítích, predikce linků a analýza sentimentu.

Anotace

Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí. Součástí přednášky/cvičení bude návrh a vývoj jednoduché aplikace umožňující detailní pochopení principů dobývání znalostí a jejich aplikace v praxi, především v oblasti ekonomie a WWW, ale i dalších.

Předpokládají se znalosti v rozsahu bakalářského kursu NDBI025 Databázové systémy.