Identifikace proteinových sekvencí pomocí NM-stromu

Publikace na Matematicko-fyzikální fakulta |

2011

Abstrakt

V tomto příspěvku zobecňujeme metodu interpretace tandemových hmotnostních spekter, založenou na parametrizované Hausdorfově vzdálenosti, pro identifikaci celých proteinových sekvencí namísto jejich krátkých úseků (peptidů). Pro indexování databáze hypotetických hmotnostních spekter (predikovaných z databáze proteinových sekvencí) využíváme nedávno publikovanou indexační strukturu NM-strom, která je vhodná jak pro přesné tak i pro rychlé aproximativní vyhledávání.

NM-strom kombinuje výhody M-stromu a algoritmu TriGen způsobem, který umožňuje dynamicky řídit přesnost vyhledávání při dotazování. Prezentujeme obecné schéma pro identifikaci proteinových sekvencí založené na využití NM-stromu.

Klíčová slova

Identifikace proteinových sekvencí pomocí NM-stromu