얕은 흐름 일치(SFM): 섬세한 음성합성의 새로운 지평을 열다
동양 등 연구팀의 얕은 흐름 일치(SFM) 메커니즘은 조잡한 출력 표현을 이용한 중간 상태 생성과 직교 투영법, 단일 구간 조각 흐름 기반 전략을 통해 흐름 일치 기반 TTS 모델의 성능과 효율성을 크게 향상시켰습니다. 객관적, 주관적 평가에서 자연스러운 음성 합성을 확인하였으며, 적응형 단계 ODE 솔버 사용 시 추론 시간을 단축하는 효과도 보였습니다.

동양, 채이이, 사이토 유키, 왕리슈, 사루와타리 히로시 연구팀이 발표한 논문 "얕은 흐름 일치(SFM)를 이용한 조잡-미세 음성합성"은 텍스트 음성 변환(TTS) 분야에 혁신적인 변화를 가져올 잠재력을 지닙니다. 기존의 흐름 일치(FM) 기반 TTS 모델은 자연스러운 음성 생성에 있어 한계를 보였습니다. 연구팀은 이러한 문제를 해결하기 위해 얕은 흐름 일치(SFM) 라는 새로운 메커니즘을 제안했습니다.
SFM의 핵심은 조잡한 출력 표현을 이용하여 FM 경로를 따라 중간 상태를 생성하는 것입니다. 이는 마치 미완성 그림에 윤곽을 잡아나가듯, 처음부터 완벽한 음성을 생성하려는 시도 대신 단계적으로 세밀하게 음성을 다듬어 나가는 방식입니다. 여기서 직교 투영법이라는 혁신적인 기법이 사용됩니다. 이는 중간 상태의 시간적 위치를 적응적으로 결정하여, 음성 생성의 효율성을 극대화합니다. 뿐만 아니라, 단일 구간 조각 흐름 기반의 원칙적인 구성 전략을 통해 안정적인 성능을 확보합니다.
SFM의 또 다른 강점은 추론 효율성입니다. 기존의 방법과 달리, SFM은 중간 상태에서 시작하여 연산을 FM 경로의 후반부에 집중합니다. 이는 마치 목적지에 가까워질수록 더욱 정밀한 조정을 하는 것과 같습니다. 특히, 적응형 단계 ODE 솔버를 사용할 때 그 효과가 더욱 두드러집니다. 연구팀은 경량화된 SFM 헤드를 통해 다양한 TTS 모델에 SFM을 쉽게 통합할 수 있도록 했습니다.
실험 결과, SFM은 객관적 및 주관적 평가 모두에서 합성 음성의 자연스러움을 향상시켰습니다. 이는 TTS 기술의 발전에 있어 중요한 이정표가 될 것으로 기대됩니다. 자세한 내용은 https://ydqmkkx.github.io/SFMDemo/ 에서 확인할 수 있습니다. 이 연구는 더욱 자연스럽고 효율적인 음성 합성 기술 개발에 크게 기여할 것으로 예상됩니다.
Reference
[arxiv] Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
Published: (Updated: )
Author: Dong Yang, Yiyi Cai, Yuki Saito, Lixu Wang, Hiroshi Saruwatari
http://arxiv.org/abs/2505.12226v1