Většina informací na internetu je k dispozici pouze ve formě webových stránek, určených pro lidské čtenáře. Není k dispozici žádné společné rozhraní pro přístup, vyhledáván í či procházení těchto dat strojově.
Tím pádem je velmi složité extrahovat sémantické informace z webu, třídit je do kategorií či je udržovat aktualizované. Pro tyto účely jsme navrhli a implementovali systém AgentMat, který je určený pro efektivní extrakci velkého množství dat z rozličných webových zdrojů.
Celý proces extrakce je popsán deklarativním způsobem, jazykem založeným na XML. Pomocí tohoto mechanismu jsou data z obyčejných, nepravidelně aktualizovaných a nestrukturalizovaných webových stránek jednoduše strojově čitelné spolu se sémantickými metadaty.