Zkoumání struktury slovních embeddingů s pomocí PCA

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

V tomto příspěvku porovnáváme strukturu českých slovních embeddingů pro anglicko-český strojový překlad (NMT), word2vec a analýzu sentimentu. Ukazujeme, že i když je možné úspěšně předvídat část slovních druhů (POS) z embeddingů word2vec a různých překladových modelů, ne všechny prostory embeddingů vykazují stejnou strukturu.

Informace o POS jsou přítomny v embeddingu word2vec, ale vysoký stupeň organizace POS v dekodéru NMT naznačuje, že tyto informace jsou důležitější pro strojový překlad, a proto je model NMT reprezentuje přímějším způsobem. Naše metoda je založena na korelaci dimenzí PCA s kategorickými lingvistickými údaji.

Také ukazujeme, že další zkoumání histogramů tříd podél dimenzí PCA je důležité pro pochopení struktury znázornění informací v embeddinzích.

Klíčová slova

zkoumání struktury slovních embeddingů pomocí