Charles Explorer logo
🇨🇿

Na cestě k lemmatizaci staročeských textů: data, software, aplikace

Publikace na Ústřední knihovna, Filozofická fakulta |
2018

Abstrakt

Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny.

V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů; automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.