CUNI systém pro soutěžní úlohu BUCC 2022 ve vytváření bilingválních terminologických slovníků

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

Prezentujeme naše řešení soutěžní úlohy BUCC 2022 ve vytváření terminologických slovníků ze specializovaných korpusů. Použili jsme tři přístupy využívající statické vektorové reprezentace s post-hoc zarovnáním, nástroj Monoses pro neřízený strojový překlad a kontextové vektorové reprezentace termínů.

Ukazujeme, že kontextové reprezentace z předtrénovaných vícejazyčných modelů vedou k podobným výsledkům jako statické reprezentace, ale lze dosáhnout dalšího zlepšení pomocí dotrénování specifického pro daný úkol. Stejné kvalitě odpovídá slovník termínů získaný z frázových tabulek systému Monoses, který dosahuje průměrné přesnosti 0,88 na trénovacím slovníku.

Klíčová slova

cuni systém soutěžní úlohu bucc 2022 vytváření bilingválních terminologických slovníků