놀라운 발견! 단순한 BLEU 점수가 AI 정렬의 혁신을 가져올 수 있다면?
본 기사는 Yapei Chang 등 연구팀의 논문 "BLEUBERI: BLEU is a surprisingly effective reward for instruction following"을 바탕으로, 기존의 복잡하고 비용이 많이 드는 LLM 정렬 방법의 대안으로 단순한 BLEU 점수를 활용한 BLEUBERI 방법론을 소개합니다. BLEUBERI는 다양한 벤치마크에서 기존 방법과 유사하거나 더 나은 성능을 보였으며, 향후 AI 개발의 효율성과 비용 절감에 크게 기여할 것으로 예상됩니다.

BLEU: 단순함 속의 강력함, AI의 새로운 지평을 열다
최근 AI 분야에서 가장 주목받는 이슈 중 하나는 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 '정렬(Alignment)' 문제입니다. 하지만 기존의 정렬 방법은 대규모의 인간이 라벨링한 데이터와 강력한 사전 훈련된 LLM 백본이 필요해 막대한 비용이 소요되는 것이 현실입니다.
그런데, 만약 단순한 문자열 일치 척도인 BLEU가 이 문제에 대한 놀라운 해결책이 될 수 있다면 어떨까요?
Chang 박사 연구팀이 발표한 논문 "BLEUBERI: BLEU is a surprisingly effective reward for instruction following"는 바로 이러한 가능성을 제시합니다. 연구팀은 고품질의 합성 지시 따르기 데이터셋을 활용하여 BLEU가 놀랍게도 기존의 강력한 보상 모델과 유사한 수준으로 인간의 선호도와 일치함을 보였습니다. 이는 곧, 복잡하고 비용이 많이 드는 보상 모델 없이도 효과적인 LLM 정렬이 가능함을 의미합니다.
BLEUBERI: 효율성과 성능의 완벽한 조화
연구팀은 이러한 발견을 바탕으로 BLEUBERI라는 새로운 방법론을 개발했습니다. BLEUBERI는 먼저 어려운 지시들을 식별하고, 그룹 상대 정책 최적화(GRPO)를 통해 BLEU를 직접 보상 함수로 사용합니다. 이는 기존 방법보다 훨씬 효율적이며, 비용을 크게 절감할 수 있는 혁신적인 접근입니다.
실험 결과, BLEUBERI로 훈련된 모델은 네 가지 어려운 지시 따르기 벤치마크와 세 가지 다른 기본 언어 모델에서 기존 보상 모델 기반 RL로 훈련된 모델들과 경쟁력 있는 성능을 보였습니다. 더 나아가, 인간 평가를 통해 BLEUBERI 모델의 출력 품질이 기존 방법과 동등하며, 사실에 기반한 정확성 또한 더욱 향상되었음을 확인했습니다.
새로운 가능성의 시작: BLEUBERI의 미래
BLEUBERI는 고품질의 참조 출력(기존 지시 따르기 데이터셋이나 합성 데이터 생성을 통해 쉽게 얻을 수 있음)만 있다면, 문자열 일치 기반 척도가 보상 모델의 저렴하면서도 효과적인 대안이 될 수 있음을 보여줍니다. 이는 LLM 정렬 분야에 있어 획기적인 진전이며, 더욱 효율적이고 저렴한 AI 개발의 길을 열어줄 것으로 기대됩니다. 연구팀은 Github(https://github.com/lilakk/BLEUBERI)를 통해 코드와 데이터를 공개하여 더 많은 연구자들이 BLEUBERI를 활용하고 AI 발전에 기여할 수 있도록 지원하고 있습니다. BLEU라는 단순한 척도가 가져올 AI의 놀라운 변화를 기대해 봅니다.
Reference
[arxiv] BLEUBERI: BLEU is a surprisingly effective reward for instruction following
Published: (Updated: )
Author: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
http://arxiv.org/abs/2505.11080v1