Charles Explorer logo
🇨🇿

Morfologické značky v paralelních korpusech

Publikace na Filozofická fakulta |
2010

Abstrakt

Sady morfosyntaktických značek, které se používají při anotaci korpusu, často třídí slovní druhy a morfologické kategorie na základě odlišných kritérií, a to i v rámci jednoho jazyka. Pro účely paralelního korpusu by bylo možné navrhnout jeden "harmonizovany" tagset (podobně jako v projektu MULTEXT-East), nebo -- ještě lépe -- zakódovat informace ze všech tagsetů do morfosyntaktické "interlingvy" (viz Interset Dana Zemana).

Paralela s přirozenými jazyky je zde na místě: problémy s chybějícími ekvivalenty vznikaji při překladu značek i slov. Proto navrhujeme tagsetovou interlingvu jako hierarchii (svaz) kategorií, které odpovídají značkám v jednotlivých jazycích/tagsetech.

Pokud pro danou kategorii v některém jazyce chybí značka, je možné ji nahradit značkou obecnější nebo disjunkcí značek specifičtějších. Podobně jako při konstrukci vícejazyčné lexikální databáze lze i pro hierarchii morfosyntaktických kategorií využít metody formální konceptuální analýzy.