Charles Explorer logo
🇨🇿

AGRR 2019: Korpus pro řešení mezera v ruštině

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Tento dokument poskytuje komplexní přehled datového souboru mezery pro ruštinu, který se skládá z 7,5k vět s mezerou (stejně jako 15k relevantních negativních vět) a obsahuje údaje z různých žánrů: zprávy, beletrie, sociální média a technické texty. Dataset byl připraven pro automatický sdílený úkol pro řešení rozdílů ruských dat (AGRR-2019) - soutěž zaměřená na stimulaci vývoje nástrojů a metod NLP pro zpracování elipsy.

V tomto článku věnujeme zvláštní pozornost metodám rozlišování mezer, které byly zavedeny v rámci sdíleného úkolu, a také alternativní testovací sadě, která ukazuje, že náš korpus je různorodá a reprezentativní podmnožina mezery ruského jazyka dostatečná pro efektivní využití technik strojového učení. .