Zkoumáme, do jaké míry lze flexi automaticky oddělit od derivace, jen na základě slovních forem. Očekáv áme, že při použití vhodné míry vzdálenosti budou páry vyskloňovaných tvarů stejného lemmatu k sobě blíže než páry vyskloňovaných forem dvou různých lemmat (stále odvozených od stejného kořene).
Vzdálenosti slovních tvarů odhadujeme pomocí editační vzdálenosti, která představuje podobnost založenou na znacích, a pomocí podobnosti slovních embedinků, která slouží jako proxy k významové podobnosti. Konkrétně zkoumáme Levenshteinovu a Jarovu-Winklerovu editační vzdálenost a kosinovou podobnost FastTextových slovních embedinků.
Vyhodnocujeme oddělitelnost flexe a derivace na vzorku z databáze DeriNet, což je databáze slovotvorných vztahů v češtině. Zkoumáme míry vzdálenosti slov jednak přímo a jednak a jako složku shlukovacího postupu.
Nejlepších výsledků je dosaženo kombinací Jarovy-Winklerovy editační vzdálenosti a kosionové podobnosti slovních embedinků, která překonává míry použité samostatně. Další