Anglický a český korpus telefonních nahrávek volně dostupný pod licencí CC-BY-SA 3.0

Publikace na Matematicko-fyzikální fakulta |

2014

Abstrakt

Prezentujeme sadu nahrávek telefonních hovorů v angličtině a češtině, vytvořenou pro trénování akustických modelů pro automatické rozpoznávání řeči v hlasových dialogových systémech. Data sestávají ze 45 hodin nahrávek v angličtině a více než 18 hodin v češtině.

Všechna data a část transkripcí byla získána pomocí crowdsourcingu, zbytek byl přepsán profesionálně. Data zveřejňujeme společně se skripty pro preprocessing a sestavení akustických modelů v nástrojích HTK a Kaldi, včetně modelů natrénovaných na našich datech.

Data jsou licencována pod CC-BY-SA 3.0, skripty pod licencí Apache 2.0. V článku popisujeme metodiku sběru dat, jejich velikost a vlastnosti, a trénovací skripty a jejich použití.

Použitelnost dat a skriptů demostrujeme natrénováním a validací akustických modelů.

Klíčová slova

anglický český korpus telefonních nahrávek volně dostupný licencí