Extrakce informací z textově orientovaných zdrojů webu

Publikace na Matematicko-fyzikální fakulta |

2008

Abstrakt

V tomto příspěvku se zbýváme extrakcí informací z webových zdrojů převážně textového charakteru. K tomuto účelu jsme se pokusili využít několik lingvistických nástrojů pro zpracování přirozeného textu v češtině.

Jmenovitě se jedná o nástroje pražského projektu PDT a český WordNet. Cílem příspěvku je přiblížit možnosti, které tyto nástroje pro extrakci informací z textu poskytují.

Extrakcí informací se zde zabýváme především v kontextu sémantického webu a zkoumáme možnosti, jak tyto nástroje využít pro automatizaci sémantické anotace stránek současného webu.

Klíčová slova

Information extraction text-bsed resources