랭귀지 모델 정렬을 위한 보상 모델의 강건성 연구: 과적합 극복과 성능 향상


본 연구는 랭귀지 모델 정렬을 위한 보상 모델의 과적합 문제를 해결하기 위해 배치별 합계 제로 정규화(BSR) 기법을 제안하고, 8B 규모 모델에서 SOTA 성능을 달성했습니다. 이 연구는 RLHF의 효율성과 성능을 크게 개선하며, AI 모델의 신뢰성과 성능 향상에 중요한 기여를 할 것으로 기대됩니다.

related iamge

서론: 인간 피드백을 활용한 강화 학습(RLHF)에서 보상 모델(RM)은 핵심적인 역할을 합니다. 특히 브래들리-테리(BT) 모델은 널리 사용되지만, 과적합 문제로 인해 새로운 데이터에 대한 일반화 성능이 저하되는 단점이 있습니다. 홍지우, 이노아 등 연구진은 이러한 문제를 해결하기 위한 혁신적인 연구 결과를 발표했습니다.

문제점: 연구진은 BT 모델 기반의 RM이 숨겨진 상태의 과도한 분산으로 인해 과적합이 발생한다는 것을 밝혔습니다. 이는 극단적인 보상 값으로 인해 모델의 일반화 능력이 저하되는 현상을 야기합니다. 이는 RLHF 과정 전체에 부정적인 영향을 미칩니다.

해결책: 연구진은 이 문제를 해결하기 위해 배치별 합계 제로 정규화(BSR) 기법을 제안했습니다. BSR은 각 배치의 보상 합계를 0에 가깝게 제한하여 극단적인 보상 값을 억제함으로써 모델의 강건성을 향상시킵니다. 이를 통해 과적합 문제를 효과적으로 완화할 수 있습니다.

실험 결과: 네 가지 과적합 시나리오에서 BSR이 뛰어난 강건성을 보였습니다. 또한, 기존 BT 모델과 BSR을 RLHF 훈련에 적용하여 비교한 결과, 강건한 RM이 정책을 더 잘 정렬시킨다는 것을 실험적으로 확인했습니다. 특히 8B 규모의 고품질 데이터와 모델에 BSR을 적용한 결과, 복잡한 선호도 예측 작업에서 기존 최고 성능(SOTA)을 5% 이상 상회하는 성과를 달성했습니다. 더 나아가, AlpacaEval 2.0 평가에서 생성 길이는 40% 줄이고 승률은 7% 향상시켰습니다. 이는 RM의 강건성이 RLHF 훈련의 강건성으로 이어짐을 보여줍니다.

결론: 본 연구는 BT 모델의 한계를 극복하고 RM의 강건성을 향상시키는 핵심적인 방법을 제시합니다. BSR 기법은 RLHF의 효율성과 성능을 크게 개선하며, 8B 규모 모델에서의 우수한 성능은 이 기법의 실용성을 입증합니다. 연구진은 코드, 데이터, 모델을 공개하여 (https://github.com/LinkedIn-XFACT/RM-Robustness) 다른 연구자들의 활용을 지원하고 있습니다. 이 연구는 AI 모델의 신뢰성과 성능 향상에 중요한 기여를 할 것으로 기대됩니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] On the Robustness of Reward Models for Language Model Alignment

Published:  (Updated: )

Author: Jiwoo Hong, Noah Lee, Eunki Kim, Guijin Son, Woojin Chung, Aman Gupta, Shao Tang, James Thorne

http://arxiv.org/abs/2505.07271v1