NotaGen: 거대 언어 모델로 고품격 고전 음악 작곡의 새 지평을 열다


중국과학원 연구진이 개발한 NotaGen은 거대 언어 모델(LLM) 훈련 패러다임을 활용하여 고품격 고전 음악을 생성하는 AI 모델입니다. 160만 곡의 데이터셋을 활용한 사전 훈련과 CLaMP-DPO 강화 학습 알고리즘을 통해 인간 작곡가의 작품과 비교해도 손색없는 음악적 심미성을 구현했습니다.

related iamge

중국과학원의 연구진이 개발한 NotaGen은 인공지능(AI) 음악 생성 분야에 혁신을 가져올 획기적인 모델입니다. 기존의 음악 생성 모델과 달리, NotaGen은 거대 언어 모델(LLM)의 훈련 패러다임을 차용하여 고품격 고전 음악 작곡에 도전했습니다. 이는 단순한 음표 나열을 넘어, 진정한 의미의 '음악적 아름다움'을 추구하는 야심찬 시도입니다.

거대 데이터와 LLM 훈련 패러다임의 만남:

NotaGen은 ABC 표기법으로 표현된 160만 곡의 방대한 음악 데이터셋으로 사전 훈련되었습니다. 이후, 약 9,000곡의 고품질 고전 음악 작품을 이용하여 "시대-작곡가-편성" 정보를 조건으로 미세 조정(fine-tuning) 과정을 거쳤습니다. 마치 인간 작곡가가 시대적 배경과 작곡가의 스타일, 악기 편성 등을 고려하여 작곡하는 것처럼 말이죠. 이러한 방대한 데이터와 LLM의 강력한 학습 능력의 조합은 NotaGen의 핵심 경쟁력입니다.

CLaMP-DPO: 인간의 개입 없이 품질 향상:

NotaGen은 단순히 데이터 학습에 그치지 않습니다. 연구진은 인간의 개입 없이 생성 품질과 제어성을 향상시키는 새로운 강화 학습 방법인 CLaMP-DPO를 제안했습니다. 기존의 강화 학습은 인간의 평가나 사전 정의된 보상이 필요했지만, CLaMP-DPO는 이러한 제약 없이도 효과적으로 모델을 개선할 수 있습니다. 이는 AI 음악 생성의 효율성과 자율성을 크게 높이는 혁신적인 기술입니다.

인간 작곡가와의 경쟁:

NotaGen의 성능은 A/B 비교 테스트를 통해 검증되었습니다. 그 결과, NotaGen은 기존의 음악 생성 모델을 뛰어넘는 것은 물론, 인간 작곡가의 작품과 비교했을 때에도 뛰어난 음악적 심미성을 보여주었다고 합니다. 이는 AI가 단순히 음악을 모방하는 수준을 넘어, 독창적이고 예술적인 음악을 창조할 수 있음을 보여주는 중요한 결과입니다.

결론:

Wang Yashan 등이 이끄는 연구팀의 NotaGen은 AI 음악 생성 분야의 새로운 기준을 제시했습니다. 거대 언어 모델 훈련 패러다임과 CLaMP-DPO 알고리즘의 조합은 AI 음악 생성의 가능성을 무한히 확장시켰으며, 앞으로 AI가 음악 산업에 미칠 영향에 대한 기대감을 높였습니다. 단순한 기술적 발전을 넘어, 인간의 창의성과 AI의 잠재력이 조화를 이룬 흥미로운 사례로 기록될 것입니다. 앞으로 NotaGen이 어떤 음악적 아름다움을 창조해낼지 기대됩니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

Published:  (Updated: )

Author: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

http://arxiv.org/abs/2502.18008v5