Popisujeme jednoduchou metodu neřízené morfematické segmentace slov v neznámém jazyku. Vše, co potřebujeme, je korpus prostého textu (nebo seznam slov) daného jazyka.
Algoritmus identifikuje části slov, které se opakují v mnoha slovech, a interpretuje je jako kandidáty na morfémy (předpony, kmeny a přípony). Hlavní inovací ve srovnání s [1] je nové zpracování předpon.
Po odfiltrování falešných hypotéz se seznam morfémů aplikuje na segmentaci vstupních slov. Prezentujeme oficiální výsledky Morpho Challenge 2008 spolu s některými doplňkovými pokusy.
Zpracování předpon zlepšilo F-skóre o 5 až 11 bodů pro němčinu, finštinu a turečtinu, ale zhoršilo angličtinu a arabštinu. V závěru rozebíráme chyby s ohledem na zvolenou vyhodnocovací metodu.