Neřízené získávání morfologických vzorů použité pro předpony (upravená verze)

Publikace na Matematicko-fyzikální fakulta |

2009

Abstrakt

Popisujeme jednoduchou metodu neřízené morfematické segmentace slov v neznámém jazyku. Vše, co potřebujeme, je korpus prostého textu (nebo seznam slov) daného jazyka.

Algoritmus identifikuje části slov, které se opakují v mnoha slovech, a interpretuje je jako kandidáty na morfémy (předpony, kmeny a přípony). Hlavní inovací ve srovnání s [1] je nové zpracování předpon.

Po odfiltrování falešných hypotéz se seznam morfémů aplikuje na segmentaci vstupních slov. Prezentujeme oficiální výsledky Morpho Challenge 2008 spolu s některými doplňkovými pokusy.

Zpracování předpon zlepšilo F-skóre o 5 až 11 bodů pro němčinu, finštinu a turečtinu, ale zhoršilo angličtinu a arabštinu. V závěru rozebíráme chyby s ohledem na zvolenou vyhodnocovací metodu.

Klíčová slova

Using Unsupervised Paradigm Acquisition Prefixes revised version