감정 표현의 혁신: LLM 기반 감정 제어 TTS 모델 EmoVoice 등장!


중국과학원 자동화연구소 연구팀이 LLM 기반 감정 제어 TTS 모델 EmoVoice와 40시간 분량의 고품질 영어 감정 데이터셋 EmoVoice-DB를 개발하여 공개했습니다. EmoVoice는 자유로운 언어 감정 제어와 음소 강화 변형 설계를 통해 최첨단 성능을 달성했으며, 기존 감정 평가 지표의 신뢰성 연구와 최첨단 다중 모드 LLM을 활용한 감정 음성 평가도 함께 진행되었습니다.

related iamge

단순 정보 전달을 넘어, 인간의 목소리는 깊은 감정 교류의 매개체입니다. 최근 Text-to-Speech (TTS) 모델이 괄목할 만한 발전을 이루었지만, 생성된 음성의 감정 표현을 정교하게 제어하는 데는 여전히 어려움이 존재합니다.

하지만 이제, 중국과학원 자동화연구소 연구팀이 개발한 EmoVoice가 그 해답을 제시합니다! EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유롭고 세밀한 자연어 감정 제어를 가능하게 하는 혁신적인 감정 제어 TTS 모델입니다. 연구팀은 사고연쇄(CoT) 및 모달리티연쇄(CoM) 기법에서 영감을 얻어, 모델이 음소 토큰과 오디오 토큰을 병렬로 출력하도록 하는 음소 강화 변형 설계를 도입하여 콘텐츠 일관성을 향상시켰습니다. 이를 통해 보다 자연스럽고 감정이 풍부한 음성 생성이 가능해졌습니다.

더욱 놀라운 것은, 연구팀이 EmoVoice-DB라는 고품질의 영어 감정 데이터셋을 함께 공개했다는 점입니다. 40시간 분량의 표현력 있는 음성과 자연어 설명, 세분화된 감정 레이블을 포함한 이 데이터셋은 EmoVoice 모델 학습에 큰 기여를 할 것으로 예상됩니다. EmoVoice는 합성 데이터만을 사용한 영어 EmoVoice-DB 테스트 세트와 자체 데이터를 사용한 중국어 Secap 테스트 세트에서 최첨단 성능을 달성했습니다.

뿐만 아니라, 연구팀은 기존 감정 평가 지표의 신뢰성과 인간의 감성적 인식과의 일치 여부를 심도 있게 연구하고, GPT-4o-audio 및 Gemini와 같은 최첨단 다중 모드 LLM을 활용하여 감정 음성을 평가하는 획기적인 시도를 진행했습니다. 실제 음성 샘플은 https://anonymous.4open.science/r/EmoVoice-DF55에서 확인 가능하며, 데이터셋, 코드, 그리고 학습된 모델 가중치 또한 공개될 예정입니다.

EmoVoice의 등장은 TTS 기술의 새로운 지평을 열었습니다. 이 기술은 향후 다양한 분야, 특히 감정 표현이 중요한 AI 비서, 교육, 엔터테인먼트 등에 폭넓게 활용될 것으로 기대됩니다. 연구팀의 끊임없는 노력과 혁신적인 연구 결과에 박수를 보냅니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

Published:  (Updated: )

Author: Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

http://arxiv.org/abs/2504.12867v2