V tomto příspěvku porovnáváme strukturu českých slovních embeddingů pro anglicko-český strojový překlad (NMT), word2vec a analýzu sentimentu. Ukazujeme, že i když je možné úspěšně předvídat část slovních druhů (POS) z embeddingů word2vec a různých překladových model ů, ne všechny prostory embeddingů vykazují stejnou strukturu.
Informace o POS jsou přítomny v embeddingu word2vec, ale vysoký stupeň organizace POS v dekodéru NMT naznačuje, že tyto informace jsou důležitější pro strojový překlad, a proto je model NMT reprezentuje přímějším způsobem. Naše metoda je založena na korelaci dimenzí PCA s kategorickými lingvistickými údaji.
Také ukazujeme, že další zkoumání histogramů tříd podél dimenzí PCA je důležité pro pochopení struktury znázornění informací v embeddinzích.