Co je to data science, typické příklady použití. Data science desetiboj (přehled souvisejících metod, algoritmů a technologií). Mapa navazujících přednášek, organizace předmětu, požadavky na zápočet/zkoušku.
Motivace a problémy data science - pohled z praxe. Limity statistických metod, zkreslení.
Technologie pro data science I: přehled populárních zástupců (technologický stack), Python a data science.
Fáze data science projektu, metodika CRISP-DM. Business understanding, data understanding.
Metody explorace a vizualizace dat.
Tvorba srozumitelného reportu.
Příprava dat (čištění, transformace, extrakce příznaků, ...).
Modelování I: základní statistické modely a vyhodnocování výkonnosti.
Modelování II: aplikovaný bayesianismus.
Data science v moderních databázových systémech.
Big Data science, MapReduce a data science.
Apache Spark a data science.
Technologie pro data science II: MLops verzování, dokumentace, ...
Manažerský pohled na data science projekt.
Kurz poskytne praktický úvod do problematiky data science. Na p řednáškách budou probrány jednotlivé fáze data science projektu, související technologie a metody. Na cvičeních budou jednotlivé kroky aplikovány na reálná data.
Část přednášek se zaměří také na specifika oblasti Big Data v kontextu data science. Přidanou hodnotou budou praktické zkušenosti z data science projektů firmy Profinit, tedy to, co se v učebnicích typicky najít nedá.
Kurz je určen pro zaměření Analýza a zpracování rozsáhlých dat i pro studenty jiných zaměření, kteří chtějí získat základní přehled o oblasti data science.