UDDETTS: 제어 가능한 감정적 TTS를 위한 이산 및 차원 감정 통합
UDDETTS는 이산 및 차원 감정을 통합한 신경 코덱 언어 모델로, ADV 공간을 활용한 정교한 감정 제어와 준지도 학습 전략을 통해 뛰어난 감정적 TTS 성능을 구현합니다. 이는 향후 다양한 분야에서 더욱 자연스럽고 감성적인 음성 경험을 제공할 가능성을 제시합니다.

획기적인 감정 표현: UDDETTS의 등장
최근 텍스트 음성 변환(TTS) 분야에서 신경 코덱 언어 모델의 발전이 눈부십니다. 하지만, 감정을 제어하는 TTS 기술은 여전히 많은 과제에 직면해 있습니다. 기존 방식은 미리 정의된 이산적인 감정 라벨에 의존하여 감정의 종류와 강도를 제어했는데, 이는 인간 감정의 복잡성과 연속성을 충분히 포착하지 못하는 한계를 지녔습니다. 균형 잡힌 감정 분포와 세분화된 감정 주석이 있는 대규모 감정 음성 데이터셋의 부족은 합성 모델의 과적합을 유발하고 효과적인 감정 제어를 방해하는 요인이었습니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 UDDETTS입니다! Liu와 Ling이 제안한 UDDETTS는 이산적 및 차원적 감정을 통합하는 신경 코덱 언어 모델로, 제어 가능한 감정적 TTS를 구현합니다.
UDDETTS의 혁신적인 특징
- 해석 가능한 ADV 공간 도입: UDDETTS는 각성-지배-가치(Arousal-Dominance-Valence, ADV) 공간을 도입하여 감정을 차원적으로 표현합니다. 이는 이산적인 감정 라벨 뿐 아니라 비선형적으로 정량화된 ADV 값을 통해서도 감정 제어가 가능하다는 것을 의미합니다. 인간의 감정 스펙트럼을 더욱 정확하게 반영하는 셈이죠!
- 다양한 데이터 활용: 다양한 유형의 감정 주석이 포함된 음성 데이터셋을 포괄적으로 활용하는 준지도 학습 전략을 통해 모델의 성능을 향상시켰습니다. 이는 데이터의 제약을 극복하고 더욱 강력한 감정 제어 능력을 제공합니다.
- 선형 감정 제어: 실험 결과, UDDETTS는 ADV 공간의 세 가지 차원을 따라 선형적인 감정 제어를 달성하며, 뛰어난 종단 간 감정적 음성 합성 능력을 보여주었습니다. 말 그대로, 감정의 강도를 자유롭게 조절할 수 있습니다!
미래를 향한 발걸음
UDDETTS는 단순한 기술적 진보를 넘어, 더욱 인간적이고 자연스러운 TTS 시스템 구축의 가능성을 열었습니다. 앞으로 더욱 발전된 UDDETTS 기반의 TTS 기술은 다양한 분야에서 활용될 것으로 예상됩니다. 가상 비서, 게임, 교육 등 다양한 어플리케이션에서 더욱 생생하고 감성적인 음성 경험을 제공할 수 있을 것입니다. 인공지능과 인간의 소통을 한층 더 풍부하게 만들어줄 UDDETTS의 미래가 기대됩니다!
Reference
[arxiv] UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech
Published: (Updated: )
Author: Jiaxuan Liu, Zhenhua Ling
http://arxiv.org/abs/2505.10599v1