Metoda stylometrie nejčastějšími slovy neumožňuje přímé srovnání původních textů a jejich překladů, tj. Napříč jazyky.
Například v dvojjazyčné česko-německé textové sbírce obsahující paralelní texty (originály a překlady v obou směrech spolu s českými a německými překlady z jiných jazyků) by autoři neshlukovali mezi jazyky, protože seznamy četných slov pro jakékoli české texty jsou zjevně bude se více podobat německému textu a naopak. Pokusili jsme se přijít s interlinguou, která by odstranila rysy specifické pro jazyk a případně zachovala jazykově nezávisl é rysy signálu jednotlivého autora, pokud existují.
Každý jazykový protějšek jsme označili, lemmatizovali a analyzovali odpovídajícím jazykovým modelem v UDPipe, který poskytuje jazykové označení, které je do značné míry vícejazyčné. Odstranili jsme výstup jazykově závislých položek, ale to samo o sobě moc nepomohlo.
V dalším kroku jsme transformovali lemma obou jazykových protějšků na sdílená pseudolemata na základě velmi hrubého česko-německého gl