Uvádíme ParCzech 3.0, mluvený korpus záznamů jednání Poslanecké sněmovny Parlamentu České republiky z období od 25. listopadu 2013 do 1. dubna 2021. Na rozdíl od p ředchozích mluvených korpusů češtiny zachováváme nejen ortografii, ale také všechna dostupná metadata (identitu mluvčích, pohlaví, hypertextové odkazy, příslušnosti, politické strany atd.) a doplňujeme je automatickou morfologickou a syntaktickou anotací a rozpoznáním pojmenovaných entit.
Korpus je kódován ve formátu TEI, který umožňuje přímočaré a mnohostranné využití. Díky bohatým metadatům a anotaci je korpus relevantní pro široké spektrum výzkumníků od inženýrů v oblasti rozpoznávání řeči až po teoretické lingvisty zkoumající rétorické vzorce z rozsáhlých materiálů.