화제의 AI 논문: 초고속 실시간 음성합성 시스템, FireRedTTS-1S 등장!

Guo Hao-Han 등 연구진이 개발한 FireRedTTS-1S는 150ms 이하의 초저지연으로 고품질 음성을 실시간 생성하는 혁신적인 TTS 시스템입니다. 두 단계의 디코딩 과정과 제로샷 음성 복제 실험을 통해 그 성능을 입증하였으며, 기존 상용 시스템과 비교해도 손색없는 결과를 얻었습니다. 이 기술은 실시간 소통이 중요한 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

초고속 실시간 음성합성 시스템, FireRedTTS-1S: 혁신의 시작

최근, Guo Hao-Han 등 연구진이 발표한 논문에서 획기적인 실시간 음성합성 시스템인 FireRedTTS-1S가 소개되어 AI 업계에 큰 반향을 불러일으키고 있습니다. 기존 FireRedTTS의 스트리밍 버전을 업그레이드한 이 시스템은 단 150ms 이내의 초저지연으로 고품질 음성을 실시간 생성하는 놀라운 성능을 자랑합니다.

두 단계의 마법: 텍스트에서 음성으로

FireRedTTS-1S는 텍스트를 음성으로 변환하는 과정을 크게 두 단계로 나눕니다. 먼저, 텍스트-의미 디코딩 단계에서는 '의미를 아는' 음성 토큰화 기술을 통해 텍스트를 의미 기반의 토큰으로 변환합니다. 자동 회귀 방식의 의미 언어 모델을 사용하여 텍스트에서 이러한 의미 토큰을 생성하는 것이죠. 다음으로, 의미-음향 디코딩 단계에서는 초고해상도 인과적 오디오 코덱과 다중 스트림 음향 언어 모델을 활용하여 생성된 의미 토큰을 실시간으로 음성 신호로 변환합니다. 이러한 독창적인 두 단계 접근 방식을 통해 실시간 고품질 음성 생성이 가능해졌습니다.

제로샷 음성 복제의 성공: 기존 시스템과의 비교

연구진은 제로샷 음성 복제 실험을 통해 FireRedTTS-1S의 성능을 검증했습니다. 그 결과, 명료도와 화자 유사성 측면에서 기존 상용 시스템과 비교해도 손색없는 결과를 얻었습니다. 더욱 놀라운 것은 주관적인 평가에서도 FireRedTTS-1S가 실제 녹음과 비슷한 수준의 높은 품질을 인정받았다는 점입니다. 이러한 결과는 FireRedTTS-1S가 고품질 실시간 스트리밍 TTS 시스템으로서의 자격을 충분히 갖추었음을 보여줍니다.

미래를 향한 발걸음: 실시간 음성 기술의 새로운 지평

FireRedTTS-1S의 등장은 실시간 음성 합성 기술의 새로운 지평을 열었습니다. 150ms 이하의 초저지연과 고품질 음성 생성은 다양한 분야, 특히 실시간 소통이 중요한 서비스 및 애플리케이션에 혁신적인 변화를 가져올 것으로 예상됩니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 기대하며, 더욱 놀라운 AI 기술의 발전을 기대해 봅니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] FireRedTTS-1S: An Upgraded Streamable Foundation Text-to-Speech System

Published: (Updated: )

Author: Hao-Han Guo, Kun Xie, Yi-Chen Wu, Feng-Long Xie, Xu Tang, Yao Hu

http://arxiv.org/abs/2503.20499v2