텍스트 없는 음성-음성 번역의 혁신: 단위 언어를 활용한 새로운 지평
본 연구는 텍스트 없는 음성-음성 번역(S2ST) 모델의 성능 향상을 위해 '단위 언어'라는 새로운 개념과 '작업 프롬프트 모델링' 기법을 제시합니다. 실험 결과는 기존 모델을 능가하는 성능과 텍스트 기반 모델과 비교 가능한 결과를 보여주며, 저자원 언어 음성 번역 분야에 큰 기여를 할 것으로 예상됩니다.

최근 텍스트가 없는 음성-음성 번역(Speech-to-Speech Translation, S2ST) 모델의 발전이 눈부시지만, 여전히 넘어야 할 두 가지 큰 산이 존재합니다. 첫째, 다양한 음성 신호에서 언어적 특징을 효과적으로 추출하는 교차 모달(CM) 문제와, 둘째, 긴 음성 시퀀스에서 서로 다른 언어 간의 정렬을 학습하는 교차 언어(CL) 문제입니다.
중국과학원 자동화연구소의 Yuhao Zhang 등 연구진은 이러한 난관을 극복하기 위해 '단위 언어(unit language)' 라는 참신한 개념을 제시했습니다. 단위 언어는 n-gram 언어 모델링을 기반으로 구축된, 텍스트와 유사한 표현 형식입니다. 연구진은 이 단위 언어를 활용하여 음성 모델링 과정을 효과적으로 안내하는 다중 작업 학습(multi-task learning) 기법을 구현했습니다.
흥미롭게도, 연구 과정에서 소스 및 타겟 단위 언어를 동시에 적용할 때 성능 저하 현상이 발견되었습니다. 이에 연구진은 '작업 프롬프트 모델링(task prompt modeling)' 이라는 새로운 기법을 제시하여 이러한 충돌 문제를 해결했습니다. 이는 단순히 기술적인 문제 해결을 넘어, 실제 모델 개발 과정에서 발생 가능한 문제들을 예측하고 해결하는 중요한 경험적 지식을 제공합니다.
VoxPupil 데이터셋의 4개 언어를 대상으로 진행된 실험 결과는 놀라웠습니다. 연구진의 방법은 기존 최고 성능 모델을 뛰어넘는 성능 향상을 보였으며, 심지어 텍스트 데이터를 사용하여 학습된 모델과 비교 가능한 수준의 성능을 달성했습니다. 이는 텍스트 데이터가 부족한 저자원 언어의 음성 번역 분야에 획기적인 발전을 가져올 가능성을 제시합니다. 단위 언어 기반의 S2ST 모델은 앞으로 다양한 언어와 문화 간의 소통에 새로운 장을 열 것으로 기대됩니다.
결론적으로, 이 연구는 혁신적인 단위 언어 개념과 작업 프롬프트 모델링을 통해 S2ST 모델링의 주요 난제를 해결하고, 텍스트 데이터 없이도 높은 성능을 달성할 수 있는 가능성을 보여주는 중요한 성과입니다. 이는 앞으로 음성 번역 기술의 발전에 크게 기여할 것으로 예상됩니다.
Reference
[arxiv] Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation
Published: (Updated: )
Author: Yuhao Zhang, Xiangnan Ma, Kaiqi Kou, Peizhuo Liu, Weiqiao Shan, Benyou Wang, Tong Xiao, Yuxin Huang, Zhengtao Yu, Jingbo Zhu
http://arxiv.org/abs/2505.15333v1