Charles Explorer logo
🇨🇿

Zvýšení účinnosti komprese HTML souborů vhodným předzpracováním

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

Vyhledávače potřebují uchovávat obrovské množství dokumentů zejména ve formátu html. Je proto užitečné co nejúčinnější kompresí redukovat jejich velikost - a to při zachování rychlého přístupu k souborům (dekomprese nesmí trvat moc dlouho).

Dalším omezením je, že mnoho stránek žádné verzi normy html neodpovídá. Často tedy není možné těžit ze znalosti html formátu. Rozhodli jsme se proto zvýšit účinnost existujících aplikací gzip a bzip2 předzpracováním komprimovaných dokumentů.

Předzpracování je založeno na nahrazování nejčastějších značek elementů a jejich atributů kratšími značkami. To zrychluje inicializaci slovníku aplikace gzip a zjednodušuje vstup pro bzip2.

Téměř ve všech případech je velikost zkomprimovaných souborů menší v případě předzpracování než bez něj. Výjimku tvoří velmi malé soubory.