Vyhledávače potřebují uchovávat obrovské množství dokumentů zejména ve formátu html. Je proto užitečné co nejúčinnější kompresí redukovat jejich velikost - a to při zachování rychlého přístupu k souborům (dekomprese nesmí trvat moc dlouho).
Dalším omezením je, že mnoho stránek žádné verzi normy html neodpovídá. Často tedy není možné těžit ze znalosti html formátu. Rozhodli jsme se proto zvýšit účinnost existujících aplikací gzip a bzip2 předzpracováním komprimovaných dokumentů.
Předzpracování je založeno na nahrazování nejčastějších značek elementů a jejich atributů kratšími značkami. To zrychluje inicializaci slovníku aplikace gzip a zjednodušuje vstup pro bzip2.
Téměř ve všech případech je velikost zkomprimovaných souborů menší v případě předzpracování než bez něj. Výjimku tvoří velmi malé soubory.