Více dat a nové nástroje. Pokroky v parsování Index Thomisticus Treebank

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Tento článek zkoumá nedávné pokroky v analýze Index Thomisticus Treebank, který zahrnuje středověké latinské texty Tomáše Akvinského. Výzkum se zaměřuje na dva typy proměnných.

Na jedné straně zkoumá, jaký vliv má větší soubor dat na výsledky parsování, na druhé straně jsou analyzovány výkony nových parserů s ohledem na méně aktuální nástroje. Termínem srovnání pro určení efektivního pokroku v parsování jsou výsledky při parsování Index Thomisticus Treebank popsané v předchozí práci.

Nejprve je nejvýkonnější parser z těch, kterých se týkala tato studie, testován na větším souboru dat, než byl ten původně použitý. Poté jsou vyhodnoceny i některé kombinace parserů, které byly vyvinuty v téže studii, přičemž je posouzeno, že více trénovacích dat vede k přesnějším výkonům.

Nakonec, abychom prozkoumali, jaký vliv mají nově dostupné nástroje na výsledky parsování, trénujeme, testujeme a vyhodnocujeme dva neuronové parsery vybrané mezi těmi, které dosáhly nejlepších výsledků ve sdílené úloze CoNLL 2018. Naše

Klíčová slova

více nové nástroje pokroky parsování index thomisticus treebank