Tento článek se věnuje přiřazování audia přímo k notopisu reprezentovanému jako obraz, bez jakýchkoliv abstratktních reprezentací. Navrhujeme metodu, která se naučí společný prostor pro reprezentaci krátkých útržků audia a jejich protějšků v obrázkách not pomocí multimodálních konvolučních neuronových sítí.
Následně ukazujeme, jak s těmito naučenými reprezentacemi (1) identifikovat příslušnou skladbu podle nahrávky, (2) vyhledávat nahrávky pomocí obrázků not. Všechny vyhledávací modely jsou natrénované na novém velkém multimodálním datasetu audia a notopisu, který je spolu s tímto článkem dán veřejně k dispozici.
Dataset obsahuje 479 detailně anotovaných klavírních skladeb od 53 skladatelů, celkem 1129 stran not a více než 15 hodin k nim zarovnaného audia, které bylo z příslušných not syntetizováno. Nad modelem natrénovaným těmito syntetickými daty však provádíme pokusy, které vyhledávají v databázi komplexních not (např. téměř celé dílo pro sólový klavír F.
Chopina) a komerčních nahrávek špičkových k