Podstatným problémem pro rozpoznávání not, především ručně psaných, je lokalizace symbolů ve vstupním obrázku. Řešení jsou stavěna jak odspodu, využívajíce nízkoúrovňové vizuální rysy, tak shora, kde se využívá skutečnost, že se hudební notace řídí silnými omezeními na syntakticky správné konfigurace symbolů. Oba přístupy se občas kombinují.
V nedávné době se přístup odspodu výrazně zlepšil pomocí konvolučních neuronových sítí. Snížení nejistoty, které může notační syntax poskytnout, však ještě s těmito modely zkombinována nebyla.
Tento rozšířený abstrakt diskutuje způsoby, jak neuronové sítě a notační syntax propojit, a analyzuje obtíže, se kterými by se jednotlivé přístupy měly potýkat. Doufáme, že náš př íspěvek podnítí další diskusi o těchto možnostech, vyprovokuje výzkumníky v oboru k experimentálnímu prozkoumání navržených přístupů, a podnítí výzkumníky z příbuzných oblastí sdílet své zkušenosti.