Velký korpus plenárních jednání parlamentu

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Představujeme velký soubor plenárních zasedání českého parlamentu. Korpus se skládá z přibližně 1200 hodin řečových dat a odpovídajících textových přepisů.

Celý korpus byl segmentován na krátké zvukové segmenty, takže je vhodný jak pro trénink, tak pro hodnocení systémů automatického rozpoznávání řeči (ASR). Zdrojovým jazykem korpusu je čeština, což z něj činí cenný zdroj pro budoucí výzkum, protože v českém jazyce je k dispozici pouze několik veřejných datových souborů.

Vydání dat doplňujeme experimenty dvou základních systémů ASR trénovaných na prezentovaných datech: tradičnější přístup implementovaný v Kaldi ASR toolkit, který kombinuje skryté Markovovy modely a hluboké neurální sítě (NN), a moderní ASR architekturu implementovanou v Jasper toolkit, který využívá NN v podobě end-to-end.

Klíčová slova

velký korpus plenárních jednání parlamentu