Prezentujeme sadu nahrávek telefonních hovorů v angličtině a češtině, vytvořenou pro trénování akustických modelů pro automatické rozpoznávání řeči v hlasových dialogových systémech. Data sestávají ze 45 hodin nahrávek v angličtině a více než 18 hodin v češtině.
Všechna data a část transkripcí byla získána pomocí crowdsourcingu, zbytek byl přepsán profesionálně. Data zveřejňujeme společně se skripty pro preprocessing a sestavení akustických modelů v nástrojích HTK a Kaldi, včetně modelů natrénovaných na našich datech.
Data jsou licencována pod CC-BY-SA 3.0, skripty pod licencí Apache 2.0. V článku popisujeme metodiku sběru dat, jejich velikost a vlastnosti, a trénovací skripty a jejich použití.
Použitelnost dat a skriptů demostrujeme natrénováním a validací akustických modelů.