Přestože nové neuronové modely typu sequence-to-sequence neurální značně zlepšily kvalitu syntézy řeči, dosud neexistuje systém schopný rychlého trénování, rychlé inference a zároveň vysoce kvalitní syntézy. Navrhujeme dvojici sítí typu učitel-student, která je schopna vysoce kvalitní syntézy spektrogramu rychleji než v reálném čase, s nízkými požadavky na výpočetní zdroje a rychlým trénováním.
Ukazujeme, že vrstvy typu self-attention nejsou pro generování vysoce kvalitní řeči nutné. Jak v učitelské, tak ve studentské síti využíváme jednoduché konvoluční bloky s reziduálním propojením; používáme pouze jednu vrstvu attention v učitelském modelu.
Ve spojení s hlasovým kodérem MelGAN byla hlasová kvalita našeho modelu hodnocena signifikantně lépe než Tacotron 2. Náš model může být efektivně trénován na jednom GPU a může běžet v reálném čase i na CPU.
Zdrojový kód i zvukové ukázky poskytujeme na našem úložišti na GitHubu.