Představujeme HamleDT - Harmonizovaný vícejazyčný z ávislostní korpus (HArmonized Multi-LanguagE Dependency Treebank). HamleDT je sbírka existujících závislostních korpusů (nebo jiných korpusů převedených do závislostní syntaxe), transformovaných tak, aby všechny odpovídaly jednotnému anotačnímu stylu.
V tomto článku představujeme podrobný rozbor řady jevů, které jsou v různých jazycích srovnatelné, jejich zachycení v korpusech se však často liší. Tvrdíme, že je možné navrhnout takové transformační procedury, které většinu zmíněných jevů automaticky rozpoznají a převedou do jednotného stylu.
Tato normalizace je důležitá jak pro komparativní lingvistiku, tak pro strojové učení syntaktické analýzy.