Neřízené získávání morfologických vzorů použité pro předpony

Publikace na Matematicko-fyzikální fakulta |

2008

Abstrakt

Popisujeme jednoduchou metodu neřízené morfematické segmentace slov v neznámém jazyce. K tomu potřebujeme pouze korpus prostého textu (nebo seznam slov) v daném jazyce.

Algoritmus rozpozná části slov, které se vyskytují v mnoha slovech, a interpretuje je jako kandidáty na morfémy (předpony, kmeny a přípony). Hlavní novinkou oproti Zeman (2007) je nové zpracování předpon.

Po odfiltrování scestných hypotéz se seznam morfémů použije k segmentaci slov na vstupu. Uvádíme oficiální vyhodnocení Morpho Challenge 2008 a také dodatečné pokusy, které jsme vyhodnotili neoficiálně.

Součástí práce je detailní rozbor chyb s ohledem na použitou vyhodnocovací metodu.

Klíčová slova

Using Unsupervised Paradigm Acquisition Prefixes