MusiCoT: 사고의 흐름을 따라 고품질 음악을 창조하다
MusiCoT은 인간의 음악적 사고 과정을 모방한 혁신적인 AI 음악 생성 모델로, CLAP 모델 기반의 사고의 흐름(CoT) 프롬프팅 기법을 통해 고품질의 일관성 있고 창의적인 음악 생성을 가능하게 합니다. 악기 편곡 분석 및 음악 참조 기능 지원으로 실용성을 높였으며, 최첨단 모델과 견줄만한 성능을 보여줍니다.

인간의 창의성을 모방한 AI 음악 생성: MusiCoT의 탄생
최근 자가 회귀(AR) 모델은 고품질 음악 생성 분야에서 놀라운 성과를 보여주고 있습니다. 하지만 기존 AR 모델은 단순히 다음 토큰을 예측하는 방식으로, 인간의 음악 작곡 과정과는 거리가 멀어 생성된 음악의 예술성이 다소 부족하다는 한계를 지닙니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 MusiCoT(Chain-of-Musical-Thought Prompting) 입니다. Max W. Y. Lam 등 17명의 연구진이 개발한 MusiCoT는 혁신적인 사고의 흐름(CoT) 프롬프팅 기법을 통해 AI 음악 생성에 새로운 지평을 열었습니다.
MusiCoT의 핵심: 음악적 사고의 연쇄
MusiCoT는 AR 모델이 먼저 전체적인 음악 구조를 개략적으로 구성한 후에야 음향 토큰을 생성하도록 설계되었습니다. 이를 통해 음악의 일관성과 창의성이 크게 향상됩니다. 특히, 대조적 언어-오디오 사전 학습(CLAP) 모델을 활용하여 '음악적 사고'의 연쇄를 구축함으로써 기존 CoT 방식과 달리 인간의 라벨링 데이터에 의존하지 않고도 확장성을 확보하는 데 성공했습니다.
MusiCoT의 강점: 분석 가능성과 실용성
MusiCoT는 단순한 음악 생성을 넘어, 악기 편곡 분석과 같은 심층적인 음악 구조 분석을 지원합니다. 또한 가변 길이의 오디오 입력을 스타일 참조로 받아들여 음악 참조 기능을 제공하며, 이를 통해 표절 문제를 효과적으로 해결합니다. 이는 실제 음악 제작 환경에서 MusiCoT의 실용성을 크게 높이는 요소입니다.
놀라운 성과: 최첨단 모델과 견줄만한 음질
연구진은 다양한 객관적 및 주관적 지표를 통해 MusiCoT의 성능을 평가했습니다. 그 결과, MusiCoT는 최첨단 음악 생성 모델들과 견줄 만한 음질을 생성하는 것으로 나타났습니다. 실제 생성된 음악 샘플은 https://MusiCoT.github.io/ 에서 확인할 수 있습니다. MusiCoT의 등장은 AI 음악 생성 분야의 새로운 가능성을 제시하며, 앞으로 더욱 발전된 음악 AI 기술의 개발을 기대하게 합니다.
결론적으로, MusiCoT는 인간의 창의적 사고 과정을 모방하고, CLAP 모델을 이용한 효율적인 학습, 그리고 실용적인 기능들을 결합하여 고품질 음악 생성의 새로운 기준을 제시한 획기적인 연구 결과입니다.
Reference
[arxiv] Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
Published: (Updated: )
Author: Max W. Y. Lam, Yijin Xing, Weiya You, Jingcheng Wu, Zongyu Yin, Fuqiang Jiang, Hangyu Liu, Feng Liu, Xingda Li, Wei-Tsung Lu, Hanyu Chen, Tong Feng, Tianwei Zhao, Chien-Hung Liu, Xuchen Song, Yang Li, Yahui Zhou
http://arxiv.org/abs/2503.19611v1