Představujeme velký soubor plenárních zasedání českého parlamentu. Korpus se skládá z přibližně 1200 hodin řečových dat a odpovídajících textových přepisů.
Celý korpus byl segmentován na krátké zvukové segmenty, takže je vhodn ý jak pro trénink, tak pro hodnocení systémů automatického rozpoznávání řeči (ASR). Zdrojovým jazykem korpusu je čeština, což z něj činí cenný zdroj pro budoucí výzkum, protože v českém jazyce je k dispozici pouze několik veřejných datových souborů.
Vydání dat doplňujeme experimenty dvou základních systémů ASR trénovaných na prezentovaných datech: tradičnější přístup implementovaný v Kaldi ASR toolkit, který kombinuje skryté Markovovy modely a hluboké neurální sítě (NN), a moderní ASR architekturu implementovanou v Jasper toolkit, který využívá NN v podobě end-to-end.