획기적인 속도 향상! LLM 추론의 효율성 혁신: GRESO 알고리즘


Haizhong Zheng 등 연구진이 개발한 GRESO 알고리즘은 강화학습 기반 LLM 추론의 연산 비용 문제를 해결하여, 롤아웃 시간을 최대 2.4배, 전체 훈련 시간을 최대 2.0배 단축시켰습니다. 정확도 저하 없이 효율성을 크게 향상시킨 이 연구는 LLM 추론의 실용성과 확장성을 높이는 데 크게 기여할 것으로 기대됩니다.

related iamge

최근 LLM(대규모 언어 모델) 추론 분야에서 괄목할 만한 성과가 발표되었습니다. Zheng 등 연구진이 개발한 GRESO(GRPO with Efficient Selective Rollout) 알고리즘은 강화학습 기반 LLM 추론의 효율성을 극적으로 향상시킨 혁신적인 기술입니다.

기존의 PPO나 GRPO와 같은 강화학습 방법은 LLM 추론 성능 향상에 기여했지만, 많은 프롬프트를 샘플링하는 롤아웃(rollout) 과정에서 막대한 연산 비용이 발생하는 문제점이 있었습니다. 더 많은 데이터를 활용하여 모델 학습을 안정화하고 성능을 개선할 수 있지만, 이는 곧 엄청난 시간과 자원 소모로 이어졌습니다.

하지만 GRESO는 이러한 문제를 해결하기 위해 새로운 접근 방식을 제시합니다. 연구진은 보상 역학(reward dynamics) 분석을 통해, 특정 훈련 단계에서 비정보성 프롬프트는 이후 단계에서도 계속 비정보성을 유지하는 경향이 있음을 발견했습니다. 이러한 통찰력을 바탕으로, GRESO는 비정보성 프롬프트를 사전에 예측하고 롤아웃 과정에서 제외하는 경량화된 온라인 필터링 알고리즘을 구현했습니다.

실험 결과는 놀랍습니다. Qwen2.5-Math-1.5B, DeepSeek-R1-Distill-Qwen-1.5B, Qwen2.5-Math-7B 등 다양한 수학 추론 벤치마크와 모델에서 GRESO는 롤아웃 시간을 최대 2.4배, 전체 훈련 시간을 최대 2.0배 단축하는 성과를 거두었습니다. 무엇보다 중요한 것은 정확도 저하 없이 이러한 속도 향상을 달성했다는 점입니다.

GRESO는 단순한 속도 향상을 넘어, LLM 추론의 실용성과 확장성을 크게 높이는 핵심 기술로 자리매김할 것으로 기대됩니다. 이러한 혁신적인 연구는 앞으로 더욱 발전된 LLM 기반 응용 프로그램 개발에 중요한 기여를 할 것으로 전망됩니다. 특히, 자원 제약이 있는 환경에서도 고성능 LLM 추론을 가능하게 함으로써, AI 기술의 접근성을 높이는 데 크게 기여할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts

Published:  (Updated: )

Author: Haizhong Zheng, Yang Zhou, Brian R. Bartoldson, Bhavya Kailkhura, Fan Lai, Jiawei Zhao, Beidi Chen

http://arxiv.org/abs/2506.02177v1