ExTrans: 예시 강화 학습을 통한 다국어 심층 추론 번역


Wang Jiaan, Meng Fandong, Zhou Jie 연구팀이 개발한 ExTrans는 새로운 보상 모델링 기법과 경량화된 강화 학습을 통해 다국어 심층 추론 번역에서 최첨단 성능을 달성했습니다. Qwen2.5-7B-Instruct 기반 모델은 11개 언어, 90개 방향 번역을 지원하며, 기존의 강력한 LRM들을 능가하는 성능을 보였습니다.

related iamge

혁신적인 다국어 기계 번역 기술, ExTrans

최근 OpenAI-o1이나 DeepSeek-R1과 같은 대규모 추론 모델(LRM)이 수학, 코딩 등 복잡한 문제 해결에 놀라운 성능을 보여주고 있습니다. 이러한 LRM의 성공을 기계 번역(MT)에 적용하려는 시도가 있었지만, 주로 영어와 중국어 같은 고자원 언어에 집중되어 다른 언어에 대한 성능은 불확실했습니다. 또한, 기존 연구의 보상 모델링 방법은 MT에서 강화 학습(RL)의 잠재력을 완전히 활용하지 못했습니다.

Wang Jiaan, Meng Fandong, Zhou Jie 연구팀은 이러한 문제점을 해결하기 위해 새로운 보상 모델링 방법을 고안했습니다. 이 방법은 정책 MT 모델의 번역 결과를 강력한 LRM(DeepSeek-R1-671B)의 결과와 비교하여 그 차이를 정량화하여 보상을 제공합니다. 실험 결과, 이 새로운 보상 모델링 방법의 우수성이 입증되었습니다.

Qwen2.5-7B-Instruct를 기반으로 학습된 모델은 문학 번역에서 최첨단 성능을 달성했으며, OpenAI-o1 및 DeepSeeK-R1을 포함한 강력한 LRM을 능가했습니다. 더 나아가, 연구팀은 이 방법을 11개 언어의 다국어 환경으로 확장했습니다. RL에서 신중하게 설계된 경량화된 보상 모델링을 통해 단일 방향의 강력한 MT 능력을 여러 방향(90개)으로 전이하여 인상적인 다국어 MT 성능을 달성했습니다.

주요 내용 요약:

  • 새로운 보상 모델링: DeepSeek-R1-671B와의 비교를 통해 보상을 정량화
  • Qwen2.5-7B-Instruct 기반: 문학 번역에서 최첨단 성능 달성
  • 다국어 지원: 11개 언어, 90개 방향 번역 지원
  • 경량화된 RL: 단일 방향의 강력한 MT 능력을 다국어로 효율적으로 전이

이 연구는 LRM과 RL을 결합하여 다국어 기계 번역의 새로운 가능성을 제시하며, 향후 다양한 언어의 고품질 번역 서비스 개발에 크게 기여할 것으로 기대됩니다. 하지만, 고자원 언어에 대한 편향성 해소 및 보다 다양한 언어 지원을 위한 추가 연구가 필요할 것으로 보입니다. 또한, LRM의 해석 가능성과 윤리적 문제에 대한 고려 또한 중요한 과제입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

Published:  (Updated: )

Author: Jiaan Wang, Fandong Meng, Jie Zhou

http://arxiv.org/abs/2505.12996v1