Charles Explorer logo
🇨🇿

W2C - Korpus z WWW

Publikace

Abstrakt

W2C je kolekce software a dat. Softwarová část slouží k vytvoření rozsáhlého textového korpusu pro zvolený jazyk.

Využívány jsou textové materiály volně dostupné na WWW. Významnou částí jsou komponenty pro filtrování dat, které umožní odstranit materiál s nízkou kvalitou.

Datová část obsahuje již vytvořené jazykové korpusy pro více než 100 jazyků, pro každý z nich ve velikosti přibližně 10 milionů slov. Tento zdroj jazykových dat usnadní řadě pracovišť vývoj multilinguálních technologií.

Klíčová slova