Charles Explorer logo
🇨🇿

Odhad konzistence anotace slovních druhů v různých treebancích jednoho jazyka

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Zavádíme novou symetrickou míru (zvanou θpos), která využívá asymetrickou míru KLcpos3 (Rosa a Žabokrtský, 2015), abychom porovnali konzistenci anotace mezi různými anotovanými treebanky téhož jazyka, jestliže jsou anotované podle téhož anotačního schématu. Pro tuto míru můžeme nastavit práh a říct, že dva treebanky lze považovat za harmonické, pokud jde o jejich anotaci, jestliže θpos nepřekročí daný práh.

Při stanovování prahové hodnoty posuzujeme vliv (i) různých velikostí dat a (ii) různého žánrového složení dat. Naše odhady vycházejí z dat z různých jazykových rodin, takže práh není tolik závislý na vlastnostech jednotlivých jazyků.

Užití navržené míry demonstrujeme na treebancích z vydání 2.5 Universal Dependencies (Zeman et al., 2019): tam, kde je více než jeden treebank pro daný jazyk, uvádíme míru konzistence pro každý pár treebanků. Navržená míra může být nicméně využita pro vyhodnocení konzistence i v jiných anotačních schématech než Universal Dependencies.