V tomto článku prezentujeme výsledky základních experimentů pro automatické extrahování definic (pro automatické generování glosářů) z nestrukturovaného (případně jen málo strukturovaného) textu v bulharštině, češtině a polštině. Extrakce je prováděna pomocí regulárních gramatik, které jsou použity na dokumenty v jednotném XML formátu.
Výsledky nejsou uspokojivé a ukazujeme, že příčina je ve vnitřní složitosti tohoto úkolu, k čemuž nás opravňuje nízká mezianotátorská shoda. Dále navrhujeme zpracování pomocí hlubší lingvistické analýzy a klasifikačních metod strojového učení.