Úvod do produkce a vnímání řeči.
Základní principy automatického zpracování řeči (HMM)
- rozpoznávání izolovaných slov,
- definice výstupních pravděpodobností,
- Baum-Welch trénovací algoritmus,
- rozpoznávání a Viterbi algoritmus,
- rozpoznávání plynulé řeči,
- adaptace modelů na mluvčího.
Popis softwarového nářadí HTK
- moduly pro přípravu dat,
- moduly pro trénování, rozpoznávání a testování.
Příprava dat
- gramatika úlohy,
- jazykový model,
- fonetický slovník,
- nahrání dat, jejich přepis a kódování.
Vytvoření HMM monofonémů
- vytvoření startovních modelů bez znalosti časových hranic fonémů,
- ošetření modelu ticha,
- automatické doladění přepisů.
Vytvoření HMM trifonémů
- převod monofonému na trifonémy,
- trifonémové sdílení stav ů pomocí rozhodovacích stromů,
- zjemnění pravděpodobnostních funkcí.
Metody vyhodnocení úspešnosti rozpoznávače.
Základní principy automatického generování řeči.
Analýza prosodie mluvené řeči.
Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.) a jejich DNN-HMM hybridním modelům.
Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.