Morfologické značkování pomocí průměrovaného perceptronu

Publikace na Matematicko-fyzikální fakulta |

2006

Abstrakt

Čeština (jako ostatní slovanské jazyky) je dobře známa svou morfologickou bohatostí. Zpracování textu (např. strojový překlad, syntaktická analýza) obvykle vyžaduje jednoznačný výběr gramatických kategorií (tzv. morfologické značky) pro každé slovo v textu.

Morfologické značkování sestává ze dvou částí - přiřazení všech možných značek každému slovu v textu a volbu správné značky v daném kontextu. Projekt Morče řeší druhou část, obvykle zvanou disambiguace.

Byla použita statistická metoda založená na kombinaci skrytého Markovova modelu a průměrovaného perceptronu. Autor provedl mnoho experimentů porovnávajících různá nastavení parametrů algoritmu, aby dosáhl nejlepší možné úspěšnosti.

Výsledná úspěšnost Morčete na datech z PDT 2.0 byla 95,431 % (březen 2006), což je na češtině zatím nejlepší dosažený výsledek samostatného taggeru.

Klíčová slova

morfologické značkování pomocí průměrovaného perceptronu