Pokus o oddělení flexe a derivace pomocí vektorových reprezentací

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Zkoumáme, do jaké míry lze flexi automaticky oddělit od derivace, jen na základě slovních forem. Očekáváme, že při použití vhodné míry vzdálenosti budou páry vyskloňovaných tvarů stejného lemmatu k sobě blíže než páry vyskloňovaných forem dvou různých lemmat (stále odvozených od stejného kořene).

Vzdálenosti slovních tvarů odhadujeme pomocí editační vzdálenosti, která představuje podobnost založenou na znacích, a pomocí podobnosti slovních embedinků, která slouží jako proxy k významové podobnosti. Konkrétně zkoumáme Levenshteinovu a Jarovu-Winklerovu editační vzdálenost a kosinovou podobnost FastTextových slovních embedinků.

Vyhodnocujeme oddělitelnost flexe a derivace na vzorku z databáze DeriNet, což je databáze slovotvorných vztahů v češtině. Zkoumáme míry vzdálenosti slov jednak přímo a jednak a jako složku shlukovacího postupu.

Nejlepších výsledků je dosaženo kombinací Jarovy-Winklerovy editační vzdálenosti a kosionové podobnosti slovních embedinků, která překonává míry použité samostatně. Další

Klíčová slova

pokus oddělení flexe derivace pomocí vektorových reprezentací