감정 표현의 혁신: LLM 기반 감정 제어 TTS 모델 EmoVoice 등장!
중국과학원 자동화연구소 연구팀이 개발한 EmoVoice는 LLM을 활용한 감정 제어 TTS 모델로, CoT와 CoM 기법에서 영감을 얻은 음소 부스트 변형 설계와 40시간 분량의 고품질 데이터셋 EmoVoice-DB를 통해 최첨단 성능을 달성했습니다. 기존 감정 평가 지표의 신뢰성 분석과 GPT-4, Gemini 활용 등을 통해 더욱 정확한 감정 표현 평가 시스템 구축을 위한 기반을 마련했습니다.

인간의 목소리는 단순한 정보 전달을 넘어, 깊은 감정을 교류하고 개인 간의 유대감을 형성하는 중요한 매개체입니다. 하지만 기존의 Text-to-Speech(TTS) 모델은 생성된 음성의 감정 표현을 세밀하게 제어하는 데 어려움을 겪어왔습니다.
이러한 한계를 극복하고자, 중국과학원 자동화연구소의 연구팀이 LLM(대규모 언어 모델)을 활용하여 자유로운 언어로 감정을 세밀하게 제어할 수 있는 혁신적인 TTS 모델 EmoVoice를 개발했습니다. Yang Guanrou 등 15명의 연구진이 참여한 이 연구는 단순히 정보를 전달하는 것을 넘어, 감정을 담은 생생한 음성을 생성하는 데 초점을 맞추었습니다.
EmoVoice의 핵심은 '사고의 연쇄'(CoT)와 '모달리티의 연쇄'(CoM) 기법에서 영감을 얻은 음소 부스트 변형 설계입니다. 이를 통해 모델은 음소 토큰과 오디오 토큰을 병렬로 생성하여 콘텐츠의 일관성을 높이고, 자연스럽고 감정이 풍부한 음성을 생성합니다. 마치 사람이 말하는 것처럼 말이죠!
또한, 연구팀은 40시간 분량의 고품질 영어 감정 데이터셋 EmoVoice-DB를 새롭게 구축했습니다. 이 데이터셋은 풍부한 감정 표현과 세분화된 감정 라벨, 그리고 자연어 설명을 포함하여 모델 학습에 최적화되어 있습니다. 이를 통해 EmoVoice는 합성 데이터만으로도 영어 EmoVoice-DB 테스트셋에서 최첨단 성능을 달성했으며, 중국어 Secap 테스트셋에서도 뛰어난 결과를 보였습니다.
더 나아가, 연구팀은 기존 감정 평가 지표의 신뢰성을 면밀히 분석하고 인간의 지각 선호도와의 정합성을 검토했습니다. GPT-4와 Gemini와 같은 최첨단 다중 모달 LLM을 활용하여 감정적 음성을 평가하는 새로운 방법론을 제시하며, 더욱 정확하고 효과적인 감정 표현 평가 시스템 구축을 위한 기반을 마련했습니다.
EmoVoice 데모는 https://yanghaha0908.github.io/EmoVoice/에서 확인 가능하며, 데이터셋, 코드, 그리고 체크포인트는 추후 공개될 예정입니다. 이 연구는 TTS 기술의 새로운 지평을 열고, AI 기반 음성 합성 기술의 발전에 큰 영향을 미칠 것으로 기대됩니다. 앞으로 더욱 발전된 EmoVoice를 통해 우리는 감정이 깃든, 더욱 풍부하고 자연스러운 AI 음성과 만나게 될 것입니다. 😄
Reference
[arxiv] EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
Published: (Updated: )
Author: Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen
http://arxiv.org/abs/2504.12867v3