Costra 1.1: Zkoumání geometrických vlastností prostorů vět

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

V tomto článku představujeme nový dataset pro testování geometrických vlastností prostorů vět. Zaměřujeme se zejména na to, jak jsou v rámci větných embeddingů interpretovány komplexní jevy, jako jsou parafrázy, časy nebo zobecnění.

Dataset je přímým rozšířením Costra 1.0, kterou jsme obohatili o další vět a jejich porovnání. Ukazujeme, že dostupným předtrénovaným větným embeddingům chybí základní předpoklad, aby synonymní věty byly zanořeny blíže k sobě než věty s výrazně odlišným významem.

Na druhou stranu se zdá, že některé embeddingy respektují lineární pořadí větných jevů jako je styl (formálnost a jednoduchost jazyka) nebo čas (minulost do budoucnosti).

Klíčová slova

costra zkoumání geometrických vlastností prostorů