감정 표현의 혁신: LLM 기반 TTS 모델 EmoVoice 등장!
중국과학원 자동화연구소 연구팀이 개발한 EmoVoice는 LLM과 Phoneme Boost 기술을 활용한 감정 제어 TTS 모델로, 고품질 데이터셋 EmoVoice-DB와 GPT-4, Gemini를 활용한 평가 시스템을 통해 합성 데이터만으로 최첨단 성능을 달성했습니다. 자유로운 감정 표현이 가능한 EmoVoice는 향후 다양한 분야에서 활용될 것으로 기대됩니다.

감정을 담은 목소리, EmoVoice가 만들어냅니다.
인간의 언어는 단순한 정보 전달을 넘어, 깊은 감정을 교류하고 개인 간의 연결을 맺는 수단입니다. 하지만 기존의 음성합성(TTS) 모델은 생성된 음성의 감정 표현을 정교하게 제어하는 데 어려움을 겪었습니다. 이러한 한계를 극복하기 위해, 중국과학원 자동화연구소(Institute of Automation, Chinese Academy of Sciences) 연구팀이 EmoVoice라는 혁신적인 모델을 개발했습니다.
LLM과 Phoneme Boost 기술의 조화: 자유로운 감정 표현의 시작
EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유 형식의 자연어 감정 제어를 가능하게 합니다. 세분화된 감정 표현을 구현하는 것이 핵심입니다. 더 나아가, 연구팀은 Phoneme Boost 변형 디자인을 도입하여 모델이 음소 토큰과 오디오 토큰을 병렬로 출력하도록 함으로써 콘텐츠 일관성을 높였습니다. 이는 Chain-of-Thought(CoT) 및 Modality-of-Thought(CoM) 기술에서 영감을 얻은 획기적인 시도입니다. 마치 사람이 생각하는 과정처럼, 자연스럽고 감정이 풍부한 음성을 만들어내는 것입니다.
EmoVoice-DB: 고품질 감정 데이터셋 공개
EmoVoice의 뛰어난 성능을 뒷받침하는 것은 바로 EmoVoice-DB라는 고품질 데이터셋입니다. 40시간 분량의 영어 감정 데이터는 풍부한 표현력과 세분화된 감정 레이블, 그리고 자연어 설명을 포함하고 있습니다. 이 데이터셋은 EmoVoice 모델의 학습에 중요한 역할을 하였습니다.
감정 평가의 새로운 기준: GPT-4와 Gemini의 활용
연구팀은 여기서 멈추지 않고, 기존 감정 평가 지표의 신뢰성과 인간의 감성적 선호도와의 일치 여부를 면밀히 조사했습니다. 그리고 최첨단 다중 모달 LLM인 GPT-4와 Gemini를 활용하여 감정적 음성을 평가하는 새로운 기준을 제시하려는 시도를 보여주었습니다. 이는 객관적이고 정확한 감정 평가를 위한 중요한 발걸음입니다.
놀라운 성과: 합성 데이터만으로 최첨단 성능 달성
EmoVoice는 영어 EmoVoice-DB 테스트 세트와 중국어 Secap 테스트 세트에서 모두 뛰어난 성능을 기록했습니다. 특히, 합성 데이터만을 사용하여 이러한 성과를 달성했다는 점은 매우 주목할 만합니다. 이는 EmoVoice 모델의 우수성을 더욱 돋보이게 합니다. 데모 샘플은 https://anonymous.4open.science/r/EmoVoice-DF55에서 확인할 수 있습니다. 곧 데이터셋, 코드, 그리고 체크포인트도 공개될 예정입니다.
결론: 감정 표현의 새로운 지평을 열다
EmoVoice는 LLM 기반 TTS 모델의 새로운 가능성을 제시합니다. 감정 표현의 정교함과 자유도를 높임으로써, 더욱 자연스럽고 인간적인 음성 상호작용을 가능하게 할 것입니다. 앞으로 EmoVoice가 다양한 분야에서 활용될 가능성은 무궁무진하며, 인공지능 기술의 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
Published: (Updated: )
Author: Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen
http://arxiv.org/abs/2504.12867v1