믿을 수 있는 영역 선호도 근사: LLM 추론을 위한 간단하고 안정적인 강화 학습 알고리즘


수 쉐르이 등 연구진이 개발한 TRPA 알고리즘은 LLM의 추론 능력 향상과 보상 해킹 문제 해결에 기여하는 혁신적인 강화 학습 알고리즘입니다. 규칙 기반 및 선호도 기반 최적화를 통합하여 안정적이고 효율적인 학습을 가능하게 합니다.

related iamge

최근 급속도로 발전하는 대규모 언어 모델(LLM)은 인공 일반 지능(AGI)에 가까워지고 있으며, 대규모 강화 학습을 통해 인간 정렬(HA)과 추론 능력을 향상시키고 있습니다. PPO(Proximal Policy Optimization)나 GRPO(Group Relative Policy Optimization)와 같은 최신 보상 기반 최적화 알고리즘은 추론 작업에서 상당한 성능을 달성했지만, 보상 해킹에 취약하다는 단점이 있습니다. 반면, DPO(Direct Preference Optimization)와 같은 선호도 기반 최적화 알고리즘은 인간 정렬 작업에서 성능을 크게 향상시켰지만, 추론 작업에서는 보상 기반 알고리즘에 비해 성능이 떨어집니다.

이러한 과제를 해결하기 위해, 수 쉐르이(Xuerui Su) 등 연구진은 규칙 기반 최적화와 선호도 기반 최적화를 통합한 새로운 알고리즘인 TRPA(Trust Region Preference Approximation) 를 제안했습니다. TRPA는 선호도 기반 알고리즘으로서 보상 해킹 문제를 자연스럽게 해결합니다. 미리 정의된 규칙을 사용하여 선호도 수준을 구성하고, 해당 선호도 쌍을 형성하며, 이론적으로 단조로운 개선을 보장하는 새로운 최적화 알고리즘을 사용하여 RL 훈련을 수행합니다.

실험 결과, TRPA는 추론 작업에서 경쟁력 있는 성능을 달성할 뿐만 아니라 강력한 안정성을 보이는 것으로 나타났습니다. 연구진은 TRPA의 코드를 깃허브(https://github.com/XueruiSu/Trust-Region-Preference-Approximation.git)에 공개하고 지속적으로 업데이트할 예정입니다. 이 연구는 LLM의 추론 능력 향상과 안전한 인공지능 개발에 중요한 기여를 할 것으로 기대됩니다. 특히, 보상 해킹 문제에 대한 해결책을 제시함으로써, 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축에 한 걸음 더 다가섰다는 의미를 지닙니다. 향후 연구에서는 TRPA의 성능을 더욱 개선하고 다양한 응용 분야에 적용하는 연구가 진행될 것으로 예상됩니다.

핵심 내용:

  • 문제: 기존 보상 기반 강화 학습 알고리즘의 보상 해킹 취약성 및 선호도 기반 알고리즘의 추론 성능 저하.
  • 해결책: 규칙 기반 및 선호도 기반 최적화를 통합한 TRPA 알고리즘 제안.
  • 결과: 추론 작업에서 경쟁력 있는 성능과 강력한 안정성 확보. 보상 해킹 문제 해결.
  • 기여: 더 안전하고 신뢰할 수 있는 AI 시스템 개발에 기여.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning

Published:  (Updated: )

Author: Xuerui Su, Shufang Xie, Guoqing Liu, Yingce Xia, Renqian Luo, Peiran Jin, Zhiming Ma, Yue Wang, Zun Wang, Yuting Liu

http://arxiv.org/abs/2504.04524v1