- Úvod do multilingvality (co to je, pro č to způsobuje problémy, na co je to dobré, WALS)
- Prostý text (abecedy, transliterace, tokenizace, identifikace jazyka, podobnost jazyků)
- Strojový překlad pro vícejazyčné zpracování jazyka (Apertium, OPUS, Bible, Strážní věž, algoritmy slovního zarovnání, vícejazyčný strojový překlad)
- Morfologie (morfologická variabilita jazyků, morfologická anotace, Universal POS tags, Universal features, konverze tagsetů, mezijazyčný tagging)
- Syntaxe (syntaktická variabilita jazyků, harmonizace anotací treebanků, Universal Dependencies; mnohojazyčný parsing, mezijazyčný parsing)
- Word embeddings, vícejazyčné embeddings, kontextové vektorové reprezentace.
Kurz se zaměřuje na multilingvální aspekty zpracování přirozeného jazyka. Vysvětluje problémy i výhody spojené s počítačovým zpracováním jazyka ve vícejazyčném prostředí a ukazuje možná řešení. Zaměříme se jak na zvládnutí variability jazyků při aplikaci monolingválních metod na širší spektrum jazyků, tak na skutečně mnohojazyčné a mezijazyčné přístupy kombinující zdroje z více jazyků najednou. Představíme si a budeme využívat řadu volně dostupných zdrojů anotovaných i neanotovaných mnohojazyčných dat.
Výuka probíhá formou semináře v počítačové laboratoři.