W2C je kolekce software a dat. Softwarová část slouží k vytvoření rozsáhlého textového korpusu pro zvolený jazyk.
Využívány jsou textové materiály volně dostupné na WWW. Významnou částí jsou komponenty pro filtrování dat, které umožní odstranit materiál s nízkou kvalitou.
Datová část obsahuje již vytvořené jazykové korpusy pro více než 100 jazyků, pro každý z nich ve velikosti přibližně 10 milionů slov. Tento zdroj jazykových dat usnadní řadě pracovišť vývoj multilinguálních technologií.