Charles Explorer logo
🇨🇿

Lexikalni asociacni miry a extrakce kolokaci

Publikace na Matematicko-fyzikální fakulta |
2010

Abstrakt

Tato práce je věnovaná empirické studii lexikálních asociačních měr a jejich aplikaci v úloze automatické extrakce kolokací. Experimenty byly provedeny na třech referenčních datových množinách: závislostních bigramech z ručně anotovaného Pražského závislostního korpusu, povrchové bigramy ze stejného korpusu a instancích prvků předchozí množiny z Českého národního korpusu opatřeného automatickou lemmatizací a morfologickým značkováním.

Kolokační kandidáti v referenčních množinách byli manuálně anotováni jako kolokace nebo nekolokace. Použité evaluační schéma je založeno na měření kvality seřazení kolokačních kandidátů dle jejich pravděpodobnosti tvořit kolokaci.

Metody jsou porovnány pomocí precision-recall křivek a hodnot mean average precision, které jsou převzaty z oboru vyhle-dávání informací. Provedeny byly i testy signifikance výsledků.

Dále je zkoumána možnost kombi-nování lexikálních asociačních měr a presentovány výsledky několika kombinačních metod, jejichž použití vedlo k výraznému zlepšení