Neřízené získávání morfologických vzorů z tokenizovaného textu (upravená verze)

Publikace na Matematicko-fyzikální fakulta |

2008

Abstrakt

Tento článek popisuje jednoduchou metodu neřízené morfologické analýzy neznámého jazyka. Potřeba je pouze prostý textový korpus daného jazyka.

Algoritmus se dívá na slova, rozpozná opakovaně se vyskytující kmeny a přípony a sestaví pravděpodobné morfologické vzory. Článek také popisuje způsob, jak byla tato metoda využita při řešení úlohy Morpho Challenge 2007, a prezentuje výsledky Morpho Challenge. Přestože tato práce byla původně studentským projektem bez návaznosti na obdobný výzkum ve světě, k našemu překvapení tento jednoduchý přístup překonal několik dalších algoritmů v podsoutěži segmentace slov.

Věříme, že v metodě je dostatečný prostor pro zlepšení, který může výsledky dále zlepšit. V článku jsou rozebrány chyby a navržena budoucí rozšíření.

Klíčová slova

Unsupervised Acquiring Morphological Paradigms Tokenized revised version