획기적인 AI 모델: 악보 이미지, 기호 악보, 연주 오디오를 통합 번역하는 혁신


정종민 등 연구팀이 악보 이미지, 기호 악보, 오디오 간의 통합 번역 AI 모델을 개발했습니다. 1300시간 이상의 대규모 데이터셋과 혁신적인 토큰화 기법을 통해 OMR 오류율을 13.67%까지 낮추고, 최초로 악보 이미지 기반 오디오 생성에 성공했습니다.

related iamge

음악의 다양한 모습을 하나로 엮다: 통합 크로스-모달 음악 번역 모델

융합의 시대, 음악도 AI로 통합된다!

정종민, 김동민, 이시훈, 조서라, 소형준, 이르막 부케이, 크리스 도나휴, 정다샘 연구팀이 음악의 다양한 형태(악보 이미지, 기호 악보, MIDI, 오디오)를 통합적으로 번역하는 AI 모델을 개발하는 쾌거를 이루었습니다. 이는 기존의 개별적인 번역 모델들을 뛰어넘는 획기적인 성과입니다. 자동 작곡, 음악 검색 등 다양한 분야에 혁신을 가져올 것으로 기대됩니다.

1300시간 이상의 방대한 데이터, 그리고 혁신적인 토큰화

연구팀은 YouTube 영상에서 수집한 1300시간이 넘는 방대한 양의 오디오-악보 이미지 데이터를 기반으로 모델을 학습시켰습니다. 이는 기존의 어떤 음악 모달리티 번역 데이터셋보다 훨씬 큰 규모입니다. 단순히 데이터의 양만 늘린 것이 아니라, 모든 모달리티(악보 이미지, 오디오, MIDI, MusicXML)를 일관된 토큰 시퀀스로 변환하는 혁신적인 토큰화 프레임워크를 도입했습니다. 이를 통해 단일 인코더-디코더 트랜스포머 모델이 여러 크로스-모달 번역 작업을 하나의 일관된 시퀀스-투-시퀀스 작업으로 처리할 수 있게 되었습니다.

놀라운 성능 향상: 오류율 감소 및 최초의 악보 이미지 기반 오디오 생성 성공!

실험 결과, 이 통합 멀티태스킹 모델은 여러 핵심 영역에서 단일 작업 기반 모델을 능가하는 성능을 보였습니다. 특히, 광학 악보 인식(Optical Music Recognition, OMR)의 심볼 에러율을 24.58%에서 최첨단 수준인 13.67%로 놀랍게 감소시켰습니다. 다른 번역 작업에서도 마찬가지로 상당한 성능 향상을 보였습니다. 무엇보다 주목할 만한 것은, 이 연구를 통해 최초로 악보 이미지를 조건으로 하는 오디오 생성에 성공했다는 점입니다. 이는 크로스-모달 음악 생성 분야의 획기적인 돌파구를 마련한 것입니다.

미래를 향한 발걸음: AI 기반 음악 기술의 새로운 지평

이 연구는 단순한 기술적 발전을 넘어, AI 기반 음악 기술의 새로운 지평을 열었습니다. 앞으로 이 기술은 자동 작곡, 개인 맞춤형 음악 생성, 음악 검색 및 분석 등 다양한 분야에 적용되어 음악 산업과 문화 전반에 혁신적인 변화를 가져올 것으로 기대됩니다. 연구팀의 끊임없는 노력과 혁신적인 사고가 만들어낸 이 놀라운 성과는, 우리에게 AI의 무한한 가능성과 음악의 아름다움을 동시에 선사합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio

Published:  (Updated: )

Author: Jongmin Jung, Dongmin Kim, Sihun Lee, Seola Cho, Hyungjoon Soh, Irmak Bukey, Chris Donahue, Dasaem Jeong

http://arxiv.org/abs/2505.12863v1