놀라운 AI 음성 변환 기술의 발전: 표현력과 자연스러움의 경계를 허물다
독일 카이저슬라우테른 공대 연구진의 비자동회귀 제로샷 표현적 음성 변환 기술 연구는 다국어 이산 음성 단위, 증강 기반 손실 함수, 교차 어텐션 등의 혁신적인 기법을 통해 기존 기술의 한계를 극복, 음색 유출을 최소화하고 표현력을 극대화했습니다. 이는 AI 음성 기술의 새로운 장을 열 것으로 기대됩니다.

AI 음성 변환 기술이 놀라운 속도로 발전하고 있습니다. 특히, 화자의 정체성과 감정 표현까지도 완벽하게 전달하는 '표현적 음성 변환' 분야는 최근 뜨거운 관심을 받고 있습니다. 하지만 기존 기술들은 원본 음성의 특징이 새 음성에 잔존하는 '음색 유출' 문제와, 언어적 정보와 음향적 정보의 분리가 미흡한 문제점을 안고 있었습니다.
독일 카이저슬라우테른 공대 연구진의 최근 연구는 이러한 문제점들을 획기적으로 개선했습니다. Seymanur Akti, Tuan Nam Nguyen, Alexander Waibel이 주도한 이 연구는 비자동회귀(Non-Autoregressive) 방식의 제로샷(Zero-Shot) 표현적 음성 변환에 초점을 맞췄습니다. 비자동회귀 방식은 기존의 자동회귀 방식보다 속도가 훨씬 빠르다는 장점을 가지고 있으며, 제로샷 학습은 사전에 훈련된 모델을 이용하여 새로운 데이터에 대한 학습 없이도 바로 적용 가능하다는 장점을 갖습니다.
연구진은 자가 지도 학습 기반의 조건부 변분 자동 인코더(Conditional Variational Autoencoder) 프레임워크를 개선하여 다음과 같은 전략을 구현했습니다.
- 다국어 이산 음성 단위 사용: 내용 표현을 위해 다국어 이산 음성 단위를 사용하여 음색 유출을 최소화했습니다. 이는 다양한 언어의 음성 데이터를 효과적으로 처리할 수 있게 해줍니다.
- 증강 기반 유사도 손실 및 믹스 스타일 레이어 정규화: 음성 증강 기법을 활용한 유사도 손실과 믹스 스타일 레이어 정규화를 통해 음색 유출을 더욱 효과적으로 제어했습니다.
- 교차 어텐션을 통한 국소 F0 정보 통합: 국소적인 기본 주파수(F0) 정보를 교차 어텐션을 통해 통합하여 표현력 전달을 향상시켰습니다. F0는 음성의 높낮이를 결정하는 중요한 요소입니다.
- 전역 피치 및 에너지 특징을 활용한 스타일 임베딩 추출: 전역 피치와 에너지 특징을 풍부하게 담은 스타일 임베딩을 추출하여 감정 표현 등의 스타일 정보를 더욱 정확하게 전달하도록 했습니다.
실험 결과, 연구진의 모델은 기존 모델보다 감정과 화자 유사도 측면에서 뛰어난 성능을 보였습니다. 이는 음성 변환의 정확도와 자연스러움을 크게 향상시켰다는 것을 의미합니다. 이 연구는 향후 AI 기반 음성 합성, 음성 인식, 언어 번역 등 다양한 분야에 혁신적인 영향을 미칠 것으로 기대됩니다. 더 자연스럽고 표현력 있는 AI 음성 시대가 성큼 다가온 것입니다! 🎉
Reference
[arxiv] Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion
Published: (Updated: )
Author: Seymanur Akti, Tuan Nam Nguyen, Alexander Waibel
http://arxiv.org/abs/2506.04013v1