획기적인 음성합성 기술: PALLE, 속도와 정확성을 모두 잡다!
Yang Yifan 등 연구진이 개발한 PALLE은 의사자동회귀(PAR) 코덱 언어 모델링을 기반으로 한 2단계 TTS 시스템으로, 기존 시스템보다 최대 10배 빠른 속도와 향상된 음질, 화자 유사성, 명료성을 제공합니다. LibriSpeech test-clean 셋에서 최첨단 시스템들을 능가하는 성능을 입증했습니다.

꿈의 음성합성 기술, PALLE의 등장
최근 텍스트 음성 변환(TTS) 분야에서 주목받는 제로샷 TTS는 데이터가 부족해도 새로운 텍스트를 입력받아 음성을 생성하는 기술입니다. 하지만 기존의 자동회귀(AR) 모델은 생성 속도가 느리고 지속 시간을 제어하기 어려운 반면, 비자동회귀(NAR) 모델은 시간 모델링이 부족하고 설계가 복잡하다는 단점을 가지고 있었습니다. Yang Yifan 등 연구진은 이러한 한계를 극복하기 위해 혁신적인 의사자동회귀(PAR) 코덱 언어 모델링을 제시했습니다.
PAR: 속도와 정확성의 완벽한 조화
PAR 모델은 AR 모델의 명확한 시간 모델링과 NAR 모델의 병렬 생성의 장점을 결합했습니다. 이는 고정된 시간 단계에서 가변 길이의 구간을 생성할 수 있게 해줍니다. 연구진은 이 PAR 모델을 기반으로 PALLE라는 2단계 TTS 시스템을 개발했습니다.
1단계에서는 PAR이 시간 차원을 따라 음성 토큰을 생성하며, 각 단계에서 모든 위치를 병렬로 예측하지만 왼쪽 가장자리 구간만 유지합니다. 2단계에서는 신뢰도가 낮은 토큰을 병렬로 반복적으로 개선하여 전역 문맥 정보를 활용합니다.
놀라운 성능 향상: 기존 최고 기록 경신!
LibriTTS 데이터셋으로 학습된 PALLE은 LibriSpeech test-clean 셋에서 음질, 화자 유사성, 명료성 측면에서 F5-TTS, E2-TTS, MaskGCT 등 기존 대규모 데이터셋으로 학습된 최첨단 시스템들을 능가하는 성능을 보였습니다. 특히, 최대 10배 빠른 추론 속도를 달성하여 실시간 응용에 큰 가능성을 제시했습니다. 자세한 오디오 샘플은 https://anonymous-palle.github.io 에서 확인할 수 있습니다.
미래를 위한 한 걸음: 더욱 발전된 음성합성 기술
PALLE의 등장은 제로샷 TTS 분야에 새로운 이정표를 세웠습니다. 속도와 정확성이라는 두 마리 토끼를 모두 잡은 PALLE은 앞으로 더욱 발전된 음성합성 기술 개발에 중요한 영향을 미칠 것으로 기대됩니다. 향후 다양한 응용 분야에서 PALLE의 활용 가능성이 기대되며, 연구진의 지속적인 연구개발을 통해 더욱 놀라운 결과들이 도출될 것으로 예상됩니다.
Reference
[arxiv] Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis
Published: (Updated: )
Author: Yifan Yang, Shujie Liu, Jinyu Li, Yuxuan Hu, Haibin Wu, Hui Wang, Jianwei Yu, Lingwei Meng, Haiyang Sun, Yanqing Liu, Yan Lu, Kai Yu, Xie Chen
http://arxiv.org/abs/2504.10352v1