LSCP: Vylepšené hovorové porozumění perskému jazyku ve velkém měřítku

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Rozpoznávání jazyků v posledních letech významně pokročilo pomocí moderních metod strojového učení, jako je deep learning a měřítka s bohatými anotacemi. Výzkum je však ve formálních jazycích s nízkými zdroji stále omezený.

Skládá se z významná mezera v popisu hovorového jazyka, zejména pro ty s nízkými zdroji, jako je perština. Aby bylo možné tuto mezeru zacílit pro jazyky s nízkými zdroji navrhujeme „Large Scale Colloquial Persian Dataset“ (LSCP).

LSCP je hierarchicky uspořádán do a sémantická taxonomie, která se zaměřuje na víceúčelové neformální porozumění perskému jazyku jako komplexní problém. To zahrnuje uznání několika sémantických aspektů ve větách na lidské úrovni, které přirozeně zachycuje z vět z reálného světa.

Věříme, že další vyšetřování a zpracování, stejně jako aplikace nových algoritmů a metod, může posílit obohacení počítačového porozumění a zpracování jazyků s nízkými zdroji. Navrhovaný korpus se skládá ze 120 milionů vět vycházejících z 27 milionů tweetů anotovaných stromem analýz

Klíčová slova

lscp vylepšené hovorové porozumění perskému jazyku velkém měřítku