OZSpeech: 단 한 번의 과정으로 제로샷 음성 합성을 구현하다!
베트남 과학기술대학교 연구진이 개발한 OZSpeech는 최적 수송 조건부 흐름 매칭을 기반으로 단 한 단계의 제로샷 음성 합성을 구현하는 혁신적인 TTS 시스템입니다. 토큰 기반의 분리된 음성 구성 요소 모델링을 통해 높은 정확도와 자연스러움을 달성하였으며, 데모 페이지를 통해 직접 성능을 확인할 수 있습니다.

딥러닝 기반 음성 합성의 새로운 지평을 열다: OZSpeech
최근 몇 년 동안 딥러닝과 신경망 아키텍처의 발전에 힘입어 텍스트 음성 변환(TTS) 시스템은 눈부신 발전을 이루었습니다. 하지만 기존 방식들은 웨이브폼이나 스펙트로그램과 같은 전통적인 음성 표현에 의존하며, 다양한 음성 속성을 간과하거나 훈련 과정에서 추가적인 제약으로 인해 높은 계산 비용이 발생하는 한계를 가지고 있었습니다.
베트남 과학기술대학교의 Hieu-Nghia Huynh-Nguyen 등 연구진은 이러한 문제를 해결하기 위해 OZSpeech를 개발했습니다. OZSpeech는 최적 수송 조건부 흐름 매칭을 활용하여 단 한 번의 샘플링으로 제로샷 음성 합성을 수행하는 혁신적인 방법입니다. 이전 상태를 무시하고 샘플링 단계 수를 줄여 효율성을 높였습니다.
OZSpeech의 핵심은 토큰 형태로 분리된 음성 구성 요소를 모델링하는 데 있습니다. 이를 통해 각 음성 속성을 정확하게 모델링하여 음성 클로닝의 정확도를 높이고, 자연스러운 음성 생성과 화자 스타일 보존에 탁월한 성능을 보여줍니다. 실험 결과, 기존 방법보다 콘텐츠 정확성, 자연스러움, 운율 생성, 화자 스타일 보존 측면에서 우수한 성능을 달성했습니다.
더욱 놀라운 것은 OZSpeech 데모 페이지 (https://ozspeech.github.io/OZSpeech_Web/) 를 통해 직접 성능을 확인할 수 있다는 점입니다. 여러분도 직접 OZSpeech의 놀라운 성능을 경험해 보세요!
결론적으로, OZSpeech는 TTS 분야에 획기적인 발전을 가져올 잠재력을 지닌 기술입니다. 단 한 단계의 제로샷 합성, 최적 수송 조건부 흐름 매칭, 토큰 기반의 분리된 음성 구성 요소 모델링 등 혁신적인 기술을 통해 TTS의 효율성과 정확성을 크게 향상시켰습니다. 앞으로 OZSpeech가 어떻게 발전하고 TTS 기술에 어떤 영향을 미칠지 귀추가 주목됩니다.
Reference
[arxiv] OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching
Published: (Updated: )
Author: Hieu-Nghia Huynh-Nguyen, Ngoc Son Nguyen, Huynh Nguyen Dang, Thieu Vo, Truong-Son Hy, Van Nguyen
http://arxiv.org/abs/2505.12800v1