V tomto příspěvku zobecňujeme metodu interpretace tandemových hmotnostních spekter, založenou na parametrizované Hausdorfově vzdálenosti, pro identifikaci celých proteinových sekvencí namísto jejich krátkých úseků (peptidů). Pro indexování databáze hypotetických hmotnostn ích spekter (predikovaných z databáze proteinových sekvencí) využíváme nedávno publikovanou indexační strukturu NM-strom, která je vhodná jak pro přesné tak i pro rychlé aproximativní vyhledávání.
NM-strom kombinuje výhody M-stromu a algoritmu TriGen způsobem, který umožňuje dynamicky řídit přesnost vyhledávání při dotazování. Prezentujeme obecné schéma pro identifikaci proteinových sekvencí založené na využití NM-stromu.