Tematické okruhy semináře:
(lze dále upravovat dle zkušeností a zájmu studentů)
Text a „discourse“. Základní pojmy. Textová koherence a prostředky jejího vyjádření.
Textová lingvistika a analýza diskurzu v druhé polovině 20. století a dnes, v Evropě a v Americe.
Od významu věty k významu textu. Paralelnost hloubkové syntaxe a mezivýpovědních textových vztahů.
Lokální koherence („shallow discourse parsing“) v projektu Penn Discourse Treebank.
Tzv. globální modely koherence, Rhetorical Structure Theory, Discourse GraphBank. Lze text reprezentovat jako stromový graf?
Kognitivní přístupy k textu: Cognitive Approach to Coherence Relations - problém pragmatických a epistemických vztahů.
Typy anotace textu na ÚFAL MFF UK. Textové konektory, koreference a asociační anafora.
Možnosti využití diskurzních zdrojů: Prague Discourse Treebank 2.0, slovník konektorů CzeDLex, dále Intercorp, TreQ.
Textová analytika a lingvistické aplikace - strojový překlad „přes hranici věty“, vytěžování informací z textu, sumarizace, automatické měření koherence.
Seminář je zaměřen na přiblížení současného výzkumu na poli textové lingvistiky u nás i v zahraničí. Těžištěm je popis možností formálního zachycení jazykových jevů překračujících hranice věty a zejména, obecněji, zachycení a modelování textové koherence.
Problematiku popisu textové koherence exaktními prostředky nám pomohou ukázat mnohdy kontrastující vybrané teorie analýzy textu (diskurzu). V rámci semináře se seznámíme s některými trendy v korpusové lingvistice a s jejich využitím v lingvistických aplikacích zpracov ávajících přirozený jazyk.