Představujeme bohatě anotovaný a žánrově diverzifikovaný jazykový zdroj Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0), jehož účelem je - jak tomu vždy bylo u rodiny Pra žských závislostních korpusů - sloužit jako trénovací data pro různé typy úkolů NLP i pro jazykově orientovaný výzkum. PDT-C 1.0 obsahuje čtyři různé datové soubory s českými texty, jednotně anotované podle standardního schématu PDT.
Texty pocházejí z různých zdrojů: novinové články, český překlad Wall Street Journal, přepsané dialogy a malé množství uživatelem vytvořených krátkých, často nestandardních jazykových segmentů, které se zadávají do webového překladače. Celkem obsahuje strom kolem 180 000 vět s jejich morfologickou, povrchovou a hlubokou syntaktickou anotací.