V češtině se vyskytují slova psaná několika různými způsoby, např. lampion TILDE OPERATOR+D91 lampión. Tato variabilita se může vyskytovat buď v některých flektivních slovních formách (flektivní varianty), srov. hradu TILDE OPERATOR+D91 hradě v lokálu podstatného jména hrad, nebo napříč flektivními slovními formami a odvozeninami (globální varianty), srov. fantazijní TILDE OPERATOR+D91 fantasijní v přídavném jméně odvozeném od podstatného jména fantazie TILDE OPERATOR+D91 fantasie.
Je rozumné rozlišovat globální varianty jako různá slova, ale mít formální prostředky, které je propojují v systémech a zdrojích zpracování přirozeného jazyka. V tomto příspěvku popisujeme identifikaci globáln ích variant v českém slovníku a shrnujeme nové změny ve slovníku MorfFlex CZ a lexikonu DeriNet týkající se tohoto typu variant.
Analyzovali jsme několik typických vzorů v rámci globálních variant zachycených v dostupných zdrojích a zkombinovali sadu regulárních výrazů s manuálními anotacemi, abychom dosáhli co nejvyšší přesnosti identifikace.