SyncSpeech: 초저지연, 고효율 듀얼스트림 텍스트 음성 변환 모델
SyncSpeech는 초저지연, 고효율을 특징으로 하는 듀얼스트림 TTS 모델로, 시간 마스크 변환기와 토큰 단위 지속 시간 예측 기술을 통해 실시간 음성 생성을 가능하게 합니다. 기존 모델 대비 압도적인 성능 개선을 이루었으며, 대규모 언어 모델과의 연동을 통해 실시간 소통 기반의 다양한 애플리케이션에 혁신을 가져올 것으로 기대됩니다.

실시간 소통의 혁명: SyncSpeech의 놀라운 성능
중국과학원 자동화연구소 Zhengyan Sheng 박사 연구팀이 개발한 SyncSpeech는 텍스트 음성 변환(TTS) 분야에 새로운 혁명을 일으킬 모델입니다. 기존 TTS 모델의 가장 큰 걸림돌이었던 지연 시간을 획기적으로 줄이고, 효율성까지 높인 듀얼스트림 기반 시스템이기 때문입니다. 이는 마치 실시간 통역과 같이, 텍스트 입력과 동시에 음성 출력이 가능하다는 것을 의미합니다. 특히 대규모 언어 모델(LLM)과의 원활한 연동을 통해 더욱 자연스럽고 실감나는 상호작용을 제공할 것으로 기대됩니다.
SyncSpeech의 핵심 기술:
SyncSpeech의 놀라운 성능은 다음과 같은 핵심 기술에 기반합니다.
- 시간 마스크 변환기(Temporal Masked Transformer): 이 모델의 중추를 이루는 핵심 기술로, 입력 텍스트 토큰을 수신하는 즉시 음성 토큰 생성을 시작하여 초저지연을 구현합니다. 두 번째 텍스트 토큰 수신 시점부터 스트리밍 음성 생성을 시작하는 놀라운 속도를 자랑합니다!
- 토큰 단위 지속 시간 예측: 다음 단계의 음성 토큰과 지속 시간을 예측하여 효율성을 극대화합니다. 모든 음성 토큰을 한 번에 디코딩하는 방식으로 속도를 높였습니다.
- 2단계 학습 전략: 훈련 효율성 향상과 생성 음성 품질 개선을 위한 효과적인 전략을 채택했습니다.
압도적인 성능 검증:
영문 및 중문 데이터셋을 이용한 평가 결과, SyncSpeech는 기존 듀얼스트림 TTS 모델에 비해 첫 패킷 지연 시간을 크게 단축하고 실시간 처리 속도를 향상시켰습니다. 더욱 놀라운 것은, 동일한 데이터 규모에서 기존 자기 회귀 기반 TTS 모델과 비교해도 음성 품질과 안정성 면에서 견줄만한 성능을 보였다는 점입니다. (샘플 음성은 https://SyncSpeech.github.io/ 에서 확인 가능합니다.)
미래를 향한 전망:
SyncSpeech는 단순한 TTS 모델을 넘어, 실시간 소통 기반의 다양한 애플리케이션에 폭넓게 활용될 가능성을 제시합니다. 인공지능 기반의 실시간 번역, 가상 비서, 게임 등 다양한 분야에서 혁신적인 사용자 경험을 제공할 수 있을 것으로 예상됩니다. 향후 연구에서는 더욱 향상된 성능과 다양한 언어 지원을 통해 더욱 폭넓은 활용이 기대됩니다. SyncSpeech의 등장은 인공지능과 인간의 소통 방식에 새로운 장을 열었습니다.
Reference
[arxiv] SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer
Published: (Updated: )
Author: Zhengyan Sheng, Zhihao Du, Shiliang Zhang, Zhijie Yan, Yexin Yang, Zhenhua Ling
http://arxiv.org/abs/2502.11094v1