혁신적인 제로샷 TTS: 선호도 정렬로 명료도의 한계를 넘어서다!
본 연구는 제로샷 TTS의 명료도 문제 해결을 위해 선호도 정렬 기법을 활용한 새로운 데이터셋 INTP와 개선된 DPO 프레임워크를 제시합니다. 다양한 TTS 모델에서 명료도 및 전반적인 성능 향상을 보였으며, 향후 연구 방향을 제시하여 제로샷 TTS 기술 발전에 기여할 것으로 기대됩니다.

제로샷 TTS의 도전과 혁신: 선호도 정렬을 통한 명료도 향상
최근 딥러닝 기반의 제로샷 Text-to-Speech (TTS) 기술이 눈부시게 발전하고 있지만, 혀 꼬임 현상, 단어 반복, 코드 전환, 그리고 언어 간 합성과 같은 어려운 상황에서는 여전히 명료도 문제에 직면하고 있습니다. 기존의 방대한 사전 학습에도 불구하고, 이러한 문제는 제로샷 TTS의 실질적인 활용에 걸림돌이 되어 왔습니다.
중국과학원 자동화연구소 (Institute of Automation, Chinese Academy of Sciences) 의 Xueyao Zhang 등 연구진은 이러한 문제를 해결하기 위해 선호도 정렬(Preference Alignment) 기술에 주목했습니다. 선호도 정렬은 사전 학습 분포 밖의 데이터를 목표 지향적으로 생성하여 성능을 향상시키는 기술입니다.
연구진은 Intelligibility Preference Speech Dataset (INTP) 라는 새로운 데이터셋을 제작하고, 기존의 Direct Preference Optimization (DPO) 프레임워크를 확장하여 다양한 TTS 아키텍처에 적용할 수 있도록 개선했습니다. INTP를 이용한 선호도 정렬 후, 놀랍게도 여러 TTS 모델에서 명료도뿐만 아니라 자연스러움, 유사성, 음질까지 전반적인 성능 향상이 관찰되었습니다.
더 나아가, 연구진은 CosyVoice 2와 Ints와 같은 고성능 모델에서도 INTP의 우수한 일반화 능력을 확인했습니다. 뿐만 아니라, Ints를 기반으로 한 반복적인 선호도 정렬을 통해 더욱 향상된 성능을 얻을 수 있음을 보여주며, 향후 연구 방향을 제시했습니다. 자세한 내용과 음성 샘플은 https://intalign.github.io/ 에서 확인할 수 있습니다.
이 연구는 제로샷 TTS 기술의 한계를 극복하고 실제 응용 분야로의 확장 가능성을 크게 높였다는 점에서 큰 의의를 가집니다. 앞으로 선호도 정렬 기법을 활용한 TTS 연구가 더욱 활발해질 것으로 예상되며, 보다 자연스럽고 명료한 음성 합성 기술의 발전에 크게 기여할 것으로 기대됩니다. 하지만, INTP 데이터셋의 다양성 및 균형에 대한 추가적인 검증과, 다양한 언어 및 도메인에 대한 확장성 연구가 필요할 것으로 보입니다.
Reference
[arxiv] Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference Alignment
Published: (Updated: )
Author: Xueyao Zhang, Yuancheng Wang, Chaoren Wang, Ziniu Li, Zhuo Chen, Zhizheng Wu
http://arxiv.org/abs/2505.04113v1