Charles Explorer logo
🇨🇿

Perplexita n-gramových a závislostních jazykových modelů

Publikace na Matematicko-fyzikální fakulta |
2010

Abstrakt

Jazykové modely jsou klíčovou součástí mnoha aplikací jako rozpoznávání mluvené řeči či strojového překladu. Jazykové modely počítají pravděpodobnost řetězce slov jako součin P(w_i|h_i), kde h_i je kontext (historie) slova w_i.

Většina jazykových modelů používá jako kontext předchozí slova. Tento článek popisuje dva alternativní přístupy: post-ngramové jazykové modely (které používají jako kontext následující slova) a závislostní jazykové modely (které využívají závislostní strukturu věty). závislostní jazykové modely.

V porovnání s baseline trigramovým jazykovým modelem dosáhly oba navrhované přístupy signifikantně nižší perplexity pro všech sedm testovaných jazyků (arabština, katalánština, čeština, angličtina, maďarština, italština, turečtina).