SongGen: 텍스트로 노래를 만드는 혁신적인 AI 모델 등장!
중국 연구진이 개발한 SongGen은 단일 단계 오토리그레시브 트랜스포머 기반의 텍스트-음악 생성 모델로, 다양한 음악 속성에 대한 세밀한 제어와 3초 음성 클립을 이용한 음성 복제 기능을 제공합니다. 오픈소스로 공개되어 활발한 연구 공유와 커뮤니티 참여를 유도하고 있습니다.

텍스트만으로 노래를 만들다? SongGen의 놀라운 기술
텍스트를 입력하면 노래를 만들어주는 기술, 상상만 해도 놀랍지 않나요? 최근, 중국 연구진이 개발한 SongGen이라는 모델이 이 놀라운 일을 현실로 만들었습니다. 기존의 복잡한 다단계 생성 과정을 단일 단계로 간소화하여 효율성을 극대화한 것이 특징입니다. 이는 마치 레고 블록을 하나하나 조립하는 대신, 미리 조립된 큰 블록들을 이용해 빠르게 건물을 완성하는 것과 같습니다.
SongGen의 핵심은 단일 단계 오토리그레시브 트랜스포머라는 새로운 아키텍처에 있습니다. 이를 통해 가사는 물론, 악기, 장르, 분위기, 음색까지 세밀하게 조절할 수 있습니다. 심지어 3초짜리 음성 클립을 참고하여 특정 가수의 목소리로 노래를 생성하는 것도 가능합니다! 마치 좋아하는 가수가 내가 쓴 가사로 노래를 부르는 듯한 경험을 선사할 수 있겠죠.
SongGen은 두 가지 출력 모드를 지원합니다. 보컬과 반주를 함께 생성하는 혼합 모드와, 보컬과 반주를 따로 생성하여 더욱 유연하게 활용 가능한 이중 트랙 모드입니다. 연구진은 각 모드에 최적화된 토큰 패턴 전략을 개발하여 성능을 한층 더 끌어올렸습니다. 이는 마치 요리사가 최고의 맛을 내기 위해 재료의 배합 비율을 정밀하게 조절하는 것과 같습니다.
더욱 놀라운 점은 SongGen이 완전히 오픈소스라는 것입니다! 모델 가중치, 학습 코드, 주석이 달린 데이터, 그리고 전처리 파이프라인까지 모두 공개하여 전 세계 연구자들의 참여와 발전을 적극적으로 독려하고 있습니다. 이러한 개방성은 AI 음악 생성 분야의 혁신을 더욱 가속화할 것으로 예상됩니다. SongGen의 놀라운 결과물들은 프로젝트 페이지에서 확인할 수 있으며, 코드는 깃허브에서 이용 가능합니다.
SongGen의 등장은 AI 음악 생성 기술의 새로운 장을 열었습니다. 앞으로 SongGen이 어떻게 발전하고 음악 산업에 어떤 영향을 미칠지 기대됩니다!
Reference
[arxiv] SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
Published: (Updated: )
Author: Zihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
http://arxiv.org/abs/2502.13128v1