Popisujeme jednoduchou metodu neřízené morfematické segmentace slov v neznámém jazyce. K tomu potřebujeme pouze korpus prostého textu (nebo seznam slov) v daném jazyce.
Algoritmus rozpozná části slov, které se vyskytují v mnoha slovech, a interpretuje je jako kandidáty na morfémy (předpony, kmeny a přípony). Hlavní novinkou oproti Zeman (2007) je nové zpracování předpon.
Po odfiltrování scestných hypotéz se seznam morfémů použije k segmentaci slov na vstupu. Uvádíme oficiální vyhodnocení Morpho Challenge 2008 a také dodatečné pokusy, které jsme vyhodnotili neoficiálně.
Součástí práce je detailní rozbor chyb s ohledem na použitou vyhodnocovací metodu.