ClapFM-EVC: 자연어와 음성의 이중 제어를 통한 고품질 감정적 음성 변환 기술의 혁신


Yu Pan 등 연구진이 개발한 ClapFM-EVC는 자연어 프롬프트와 참조 음성을 이용하여 고품질의 감정적 음성 변환을 가능하게 하는 혁신적인 기술입니다. EVC-CLAP 모델과 FuEncoder를 통해 감정 요소를 정교하게 제어하고, 흐름 일치 모델을 통해 자연스러운 음성을 생성합니다. 객관적 및 주관적 평가를 통해 효과가 검증된 ClapFM-EVC는 감정적 음성 변환 기술의 새로운 기준을 제시합니다.

related iamge

ClapFM-EVC: 자연어와 음성의 이중 제어로 감정을 담은 목소리를 자유자재로!

최근 인공지능 기술의 발전에도 불구하고, 고품질의 감정적 음성 변환(EVC)을 유연하고 해석 가능하게 제어하는 것은 여전히 어려운 과제였습니다. 하지만 이제, Yu Pan 등 8명의 연구진이 개발한 ClapFM-EVC가 이러한 한계를 뛰어넘는 혁신적인 해결책을 제시합니다.

ClapFM-EVC는 자연어 프롬프트 또는 참조 음성을 통해 고품질의 변환 음성을 생성하며, 감정 강도까지 조절할 수 있는 놀라운 유연성을 자랑합니다. 이 시스템의 핵심은 두 가지 혁신적인 기술에 있습니다.

첫째, EVC-CLAP이라는 새로운 감정 대조 언어-오디오 사전 학습 모델입니다. 자연어 프롬프트와 범주형 레이블을 사용하여 음성과 텍스트 모달리티 간에 미세한 감정 요소를 추출하고 정렬합니다. 이는 마치 음성과 텍스트의 감정적 의미를 정교하게 비교 분석하여 일치시키는 작업과 같습니다. 이를 통해, 감정 표현의 정확성이 크게 향상됩니다.

둘째, 적응형 강도 게이트가 있는 FuEncoder를 통해 감정 특징과 사전 훈련된 ASR 모델로부터 얻은 음성학적 후보 그램(Phonetic PosteriorGrams)을 매끄럽게 융합합니다. 이는 감정과 음성 정보를 효율적으로 결합하여 더욱 자연스럽고 감정적인 음성을 생성하는 기술입니다. 마치 화가가 색깔을 조화롭게 섞어 그림을 완성하는 것과 같습니다.

뿐만 아니라, 연구진은 흐름 일치 모델(flow matching model) 을 활용하여 이러한 특징들을 바탕으로 원본 음성의 멜-스펙트로그램을 재구성하여 감정 표현력과 음성의 자연스러움을 더욱 향상시켰습니다. 객관적 및 주관적 평가를 통해 ClapFM-EVC의 효과가 검증되었습니다.

ClapFM-EVC는 고품질 감정적 음성 변환 기술의 새로운 지평을 열었습니다. 자연어 처리와 음성 합성 기술의 발전에 큰 기여를 할 뿐만 아니라, 다양한 분야에서의 응용 가능성을 보여주는 획기적인 연구입니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 기대됩니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech

Published:  (Updated: )

Author: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Jianhao Ye, Hongbin Zhou, Lei Ma, Jianjun Zhao

http://arxiv.org/abs/2505.13805v1