혁신적인 AI 기반 영상 더빙 기술 등장: 실시간, 고품질 번역의 새로운 지평


본 기사는 실시간 기기 내 비디오 더빙을 위한 혁신적인 AI 기술에 대한 연구 결과를 소개합니다. 길이 인식 음성 번역(LSST) 모델과 길이 인식 빔 검색(LABS) 알고리즘을 통해 번역 속도와 정확도, 그리고 원본 영상과의 동기화 품질을 크게 향상시켰으며, 특히 한국어 더빙에서 상당한 성과를 거두었습니다.

related iamge

최근, AI 기반 영상 더빙 기술 분야에 획기적인 발전이 이루어졌습니다. Harveen Singh Chadha를 비롯한 7명의 연구진이 발표한 논문, "Length Aware Speech Translation for Video Dubbing" 에서는 실시간 기기 내 비디오 더빙을 위한 혁신적인 기술이 소개되었습니다. 기존 영상 더빙의 가장 큰 어려움 중 하나는 번역된 음성과 원본 음성의 정확한 시간적 정렬이었습니다. 이 문제를 해결하기 위해 연구팀은 음소 기반의 끝단간 길이 민감형 음성 번역(LSST) 모델을 개발했습니다.

이 모델은 미리 정의된 태그를 사용하여 짧은, 일반적인, 긴 길이의 번역을 생성할 수 있습니다. 단순히 번역의 정확성만을 추구하는 것이 아니라, 번역된 음성의 길이까지 고려하여 원본 영상과의 시간적 일치를 최적화하는 것이 핵심입니다.

더욱 놀라운 것은, 연구팀이 개발한 길이 인식 빔 검색(LABS) 알고리즘입니다. LABS는 단일 디코딩 과정에서 다양한 길이의 번역을 생성하여 효율성을 극대화했습니다. 이는 기존 방식보다 훨씬 빠르고 효율적인 번역을 가능하게 합니다. 기존 방식과 비교했을 때 BLEU 점수는 유사하게 유지하면서, 동시에 원본과 번역 음성 간의 동기화 품질은 크게 향상되었습니다.

실제 주관적 평가 점수(MOS) 측정 결과는 이 기술의 효과를 명확하게 보여줍니다. 스페인어의 경우 0.34, 한국어의 경우 무려 0.65의 MOS 향상을 기록했습니다. 이는 사용자들이 더빙된 영상의 자연스러움과 몰입도를 크게 향상되었다고 느꼈음을 의미합니다.

이 연구는 단순한 기술적 발전을 넘어, 실시간 고품질 영상 더빙 서비스의 상용화를 앞당길 중요한 이정표를 제시합니다. 앞으로 다양한 언어와 영상 콘텐츠에 적용되어 더욱 풍부하고 편리한 미디어 소비 환경을 구축하는 데 크게 기여할 것으로 예상됩니다. 특히 한국어 더빙의 MOS 점수가 크게 향상된 점은 국내 영상 콘텐츠 산업에 긍정적인 영향을 미칠 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Length Aware Speech Translation for Video Dubbing

Published:  (Updated: )

Author: Harveen Singh Chadha, Aswin Shanmugam Subramanian, Vikas Joshi, Shubham Bansal, Jian Xue, Rupeshkumar Mehta, Jinyu Li

http://arxiv.org/abs/2506.00740v1