SSR-Zero: 자기 보상 강화학습으로 기계 번역의 새 지평을 열다
양문제, 정모, 송명양, 리정 연구팀이 개발한 SSR-Zero는 자체 판단 보상만을 사용하는 참조 없는 강화학습 기계번역 모델입니다. 소규모 데이터셋과 상대적으로 작은 모델임에도 불구하고, 기존 최첨단 모델들을 능가하는 성능을 보여주었으며, 코드와 모델의 공개를 통해 학계에 큰 영향을 미칠 것으로 예상됩니다.

최근 대규모 언어 모델(LLM)은 기계 번역(MT) 분야에서 놀라운 성능을 보여주고 있습니다. 하지만 대부분의 최첨단 MT 특화 LLM은 사람이 직접 주석을 단 참조 데이터나 훈련된 보상 모델(RM)과 같은 외부 감독 신호에 크게 의존합니다. 이러한 신호는 얻는 데 비용이 많이 들고 확장하기 어렵다는 단점이 있습니다.
양문제, 정모, 송명양, 리정 연구팀은 이러한 한계를 극복하기 위해 참조 없이, 완전히 온라인으로, 자체 판단 보상에만 의존하는 간단한 자기 보상(SSR) 강화 학습(RL) 프레임워크인 SSR-Zero를 제시했습니다. 이는 기존의 방식과는 확연히 다른 접근 방식입니다.
단 13,000개의 일어 단어 예시와 Qwen-2.5-7B 백본 모델만을 사용하여 훈련된 SSR-Zero-7B는 TowerInstruct-13B, GemmaX-28-9B와 같은 기존의 MT 특화 LLM은 물론, Qwen2.5-32B-Instruct와 같은 더 큰 규모의 일반 LLM보다도 영어↔중국어 번역 작업에서 뛰어난 성능을 보였습니다. WMT23, WMT24, Flores200 벤치마크에서 그 우수성을 입증했습니다. 놀라운 점은, 상대적으로 작은 모델임에도 불구하고, 큰 모델들을 능가하는 성능을 보였다는 것입니다.
더 나아가, COMET으로부터 외부 감독을 추가한 SSR-X-Zero-7B는 영어↔중국어 번역에서 최첨단 성능을 달성했습니다. 72B 파라미터 미만의 모든 기존 오픈소스 모델을 뛰어넘었을 뿐만 아니라, GPT-4o 및 Gemini 1.5 Pro와 같은 상용 모델과도 경쟁할 수 있는 수준의 성능을 기록했습니다. 이는 자기 보상 기반 모델의 잠재력을 명확하게 보여주는 결과입니다.
연구팀은 자체 보상 메커니즘의 효과를 분석하여 외부 LLM 평가 방식과 비교하고, 훈련된 RM과 결합했을 때의 상호 보완적 이점을 보여주었습니다. 또한, 코드, 데이터, 모델을 공개함으로써 연구의 재현성과 투명성을 확보했습니다. 이는 학계의 발전에 큰 기여를 할 것으로 기대됩니다.
SSR-Zero는 단순히 새로운 모델이 아닌, 자기 개선 강화학습의 가능성을 엿볼 수 있는 중요한 이정표입니다. 비용 효율적인 훈련 방식과 놀라운 성능은 기계 번역 기술의 발전에 새로운 장을 열 것이며, 향후 연구 방향에 대한 귀중한 통찰력을 제공합니다. 앞으로 SSR-Zero를 기반으로 한 더욱 발전된 모델들이 등장할 것으로 기대됩니다.
Reference
[arxiv] SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation
Published: (Updated: )
Author: Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li
http://arxiv.org/abs/2505.16637v1