AgentMat: Framework pro dolování dat a semantizaci

Publikace na Matematicko-fyzikální fakulta |

2009

Abstrakt

Většina informací na internetu je k dispozici pouze ve formě webových stránek, určených pro lidské čtenáře. Není k dispozici žádné společné rozhraní pro přístup, vyhledávání či procházení těchto dat strojově.

Tím pádem je velmi složité extrahovat sémantické informace z webu, třídit je do kategorií či je udržovat aktualizované. Pro tyto účely jsme navrhli a implementovali systém AgentMat, který je určený pro efektivní extrakci velkého množství dat z rozličných webových zdrojů.

Celý proces extrakce je popsán deklarativním způsobem, jazykem založeným na XML. Pomocí tohoto mechanismu jsou data z obyčejných, nepravidelně aktualizovaných a nestrukturalizovaných webových stránek jednoduše strojově čitelné spolu se sémantickými metadaty.

Klíčová slova

AgentMat Framework Scraping Semantization