F5R-TTS: 그룹 상대 정책 최적화로 흐름 일치 기반 음성 합성의 혁신을 이루다!

Xiaohui Sun 등 연구진이 개발한 F5R-TTS는 GRPO 알고리즘과 이중 보상 메트릭스를 통해 흐름 일치 기반 TTS의 성능을 획기적으로 개선, WER 29.5% 감소 및 SIM 4.6% 증가를 달성했습니다. 오픈소스 데이터셋 기반의 이 놀라운 성과는 AI 음성 합성 분야의 혁신을 보여줍니다.

꿈꿔왔던 자연스러운 AI 음성, 이제 현실이 된다: F5R-TTS의 놀라운 도약

중국과학원(CAS) 산하 연구팀이 발표한 F5R-TTS는 인공지능 음성 합성(TTS) 분야에 혁신적인 발전을 가져왔습니다. 기존의 흐름 일치(flow-matching) 기반 TTS 시스템의 한계를 뛰어넘어, 그룹 상대 정책 최적화(GRPO) 알고리즘을 도입하여 음성의 명료도와 화자의 유사도를 비약적으로 향상시켰습니다.

핵심 기술: GRPO와 이중 보상 메트릭스

F5R-TTS의 핵심은 기존의 결정론적 흐름 일치 모델을 확률적 가우시안 분포로 재구성하여 강화 학습 알고리즘과의 원활한 통합을 가능하게 한 점입니다. 이는 마치 음성 합성의 '불확실성'을 적극적으로 활용하여 더욱 자연스러운 음성을 생성하는 것과 같습니다. 뿐만 아니라, 자동 음성 인식(WER)과 화자 유사도(SIM)라는 이중 보상 메트릭스를 통해 학습 과정을 더욱 효율적으로 관리하고, 두 가지 중요한 목표를 동시에 달성할 수 있도록 했습니다. 이러한 혁신적인 접근법은 마치 음성 합성이라는 그림을 더욱 정교하게, 그리고 더욱 다채롭게 그려내는 것과 같습니다.

놀라운 성과: WER 29.5% 감소, SIM 4.6% 증가

실험 결과는 F5R-TTS의 놀라운 성능을 입증합니다. 제로샷 음성 복제(zero-shot voice cloning) 실험에서, 기존 흐름 일치 기반 TTS 시스템에 비해 음성 인식 오류율(WER)은 29.5% 감소하고, 화자 유사도(SIM)는 4.6% 증가했습니다. 이는 단순한 수치적 개선을 넘어, 인간의 음성과 구분하기 어려울 정도로 자연스럽고 정확한 AI 음성 합성이 가능해졌음을 의미합니다. 더욱 놀라운 사실은 이 모든 성과가 오픈소스 데이터셋을 기반으로 이루어졌다는 점입니다. https://frontierlabs.github.io/F5R 에서 직접 음성 샘플을 확인해 보세요!

미래를 향한 전망

F5R-TTS는 AI 음성 합성 기술의 새로운 지평을 열었습니다. 앞으로 더욱 발전된 기술을 통해 보다 자연스럽고 표현력이 풍부한 AI 음성이 다양한 분야에서 활용될 것으로 예상됩니다. 이는 단순히 기술의 발전을 넘어, 인간과 기계의 소통 방식을 근본적으로 바꿀 잠재력을 가지고 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization

Published: (Updated: )

Author: Xiaohui Sun, Ruitong Xiao, Jianye Mo, Bowen Wu, Qun Yu, Baoxun Wang

http://arxiv.org/abs/2504.02407v3