Úvod a motivace
Základní pojmy z teorie pravděpodobnosti a teorie informace
Jazykové modelování; metody vyhlazování
Základy lingvistiky: roviny popisu, morfologie, syntax (povrchová vs. hloubková)
Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.
Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).
Maximální entropie. Princip modelu a odhad parametrů pomocí Generalized Iterative Scaling. Otázky výběru pravidel (features).
Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelov ání přirozených jazyků II (v LS).