Učení korespondencí mezi zvukem a notovým záznamem pro vyhledávání napříč modalitami

Publikace na Matematicko-fyzikální fakulta |

2018

Abstrakt

Tento článek se věnuje přiřazování audia přímo k notopisu reprezentovanému jako obraz, bez jakýchkoliv abstratktních reprezentací. Navrhujeme metodu, která se naučí společný prostor pro reprezentaci krátkých útržků audia a jejich protějšků v obrázkách not pomocí multimodálních konvolučních neuronových sítí.

Následně ukazujeme, jak s těmito naučenými reprezentacemi (1) identifikovat příslušnou skladbu podle nahrávky, (2) vyhledávat nahrávky pomocí obrázků not. Všechny vyhledávací modely jsou natrénované na novém velkém multimodálním datasetu audia a notopisu, který je spolu s tímto článkem dán veřejně k dispozici.

Dataset obsahuje 479 detailně anotovaných klavírních skladeb od 53 skladatelů, celkem 1129 stran not a více než 15 hodin k nim zarovnaného audia, které bylo z příslušných not syntetizováno. Nad modelem natrénovaným těmito syntetickými daty však provádíme pokusy, které vyhledávají v databázi komplexních not (např. téměř celé dílo pro sólový klavír F.

Chopina) a komerčních nahrávek špičkových k

Klíčová slova

učení korespondencí mezi zvukem notovým záznamem vyhledávání napříč modalitami