화웨이의 혁신: 대규모 비전-언어 모델 기반 문서 이미지 기계 번역 시스템
화웨이 번역 서비스 센터(HW-TSC)는 ICDAR 2025에서 최첨단 대규모 비전-언어 모델(LVLM)을 기반으로 한 엔드투엔드 문서 이미지 기계 번역 시스템을 선보였습니다. 다중 작업 학습과 지각 사고 연쇄를 결합한 훈련 프레임워크와 최소 베이지안 디코딩 및 후처리 전략을 통해 OCR 기반 및 비 OCR 기반 문서 모두에 대한 정확하고 효율적인 번역을 제공하는 시스템입니다.

화웨이, ICDAR 2025에서 문서 이미지 기계 번역 기술 선도
2025년 국제 문서 분석 및 인식 학회(ICDAR)에서 화웨이 번역 서비스 센터(HW-TSC)가 발표한 기술이 큰 주목을 받았습니다. 바로 DIMT25@ICDAR2025 경진대회에서 우수한 성적을 거둔 엔드투엔드 문서 이미지 기계 번역 시스템입니다. 이 시스템은 복잡한 레이아웃을 가진 문서를 처리하는 능력으로 심사위원들의 찬사를 받았습니다.
최첨단 기술의 조화: 대규모 비전-언어 모델과 훈련 프레임워크
HW-TSC는 최신 오픈소스 대규모 비전-언어 모델(LVLM) 을 기반으로 시스템을 구축했습니다. 단순히 LVLM을 활용하는 것을 넘어, 다중 작업 학습과 지각 사고 연쇄(perceptual chain-of-thought) 를 결합한 독창적인 훈련 프레임워크를 개발하여 시스템의 성능을 극대화했습니다. 이는 이미지 인식과 언어 번역을 동시에 학습시켜, 보다 정확하고 효율적인 번역을 가능하게 합니다.
완벽에 가까운 번역: 추론 전략과 후처리
번역 과정에서 최소 베이지안 디코딩과 후처리 전략을 적용하여 번역의 정확도를 높였습니다. 이는 단순히 문장을 번역하는 것을 넘어, 문서의 구조와 의미를 정확하게 파악하고 이를 반영한 번역을 제공한다는 의미입니다. 특히, OCR 기반 및 OCR-free 문서 모두를 하나의 프레임워크 내에서 처리하는 유연성을 보여주었습니다.
미래를 향한 발걸음: HW-TSC의 도전과 성과
본 논문에서는 HW-TSC의 시스템에 대한 상세한 설명과 함께, 훈련 방법, 추론 전략, LVLM 기반 모델, 훈련 데이터, 실험 설정 및 결과 등을 체계적으로 제시하고 있습니다. 이를 통해 문서 이미지 기계 번역 분야에서 HW-TSC가 이룬 괄목할 만한 성과와 앞으로의 발전 가능성을 확인할 수 있습니다. HW-TSC의 이번 연구는 문서 번역 자동화의 새로운 지평을 열고, 다양한 분야에서의 활용 가능성을 제시하며, AI 기반 번역 기술의 혁신을 이끌어갈 것으로 기대됩니다.
Keywords: 문서 이미지 기계 번역, 대규모 비전-언어 모델 (LVLM), 다중 작업 학습, 지각 사고 연쇄, 화웨이, ICDAR 2025, OCR, 엔드투엔드 시스템
Reference
[arxiv] DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model
Published: (Updated: )
Author: Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Pengfei Li, Shuang Wu, Chong Li, Junhao Zhu, Hao Yang
http://arxiv.org/abs/2504.17315v1