SEED-GRPO: 불확실성 인식 정책 최적화로 LLM의 한계 뛰어넘다!


중국과학원 연구팀이 개발한 SEED-GRPO는 LLM의 불확실성을 의미론적 엔트로피로 측정하고, 이를 바탕으로 정책 업데이트를 동적으로 조절하는 혁신적인 방법입니다. 5가지 수학 추론 벤치마크에서 SOTA 성능을 달성하며, AI의 신뢰성과 안정성 향상에 기여할 것으로 기대됩니다.

related iamge

AI의 불확실성, 이제 정복할 수 있다면?

최근 급속한 발전을 거듭하는 대규모 언어 모델(LLM)은 때로는 놀라운 능력을 보여주지만, 여전히 불확실성이라는 난관에 직면합니다. 같은 질문에도 때로는 일관된 답변을, 때로는 모순된 답변을 내놓는 LLM의 이러한 불안정성은 모델의 지식 한계를 보여주는 중요한 신호입니다. 기존의 GRPO(Group Relative Policy Optimization)는 이러한 불확실성을 무시하고 모든 질문을 동등하게 다루는 한계를 가지고 있었습니다.

의미론적 엔트로피: 불확실성을 측정하는 새로운 지표

중국과학원의 Chen Minghan 박사 연구팀은 이러한 한계를 극복하기 위해 SEED-GRPO (Semantic Entropy Enhanced GRPO) 라는 혁신적인 방법을 제시했습니다. SEED-GRPO의 핵심은 바로 의미론적 엔트로피(Semantic Entropy) 입니다. 이는 특정 질문에 대한 다양한 답변들의 의미적 다양성을 측정하는 지표로, LLM이 얼마나 확신을 가지고 문제를 이해하는지를 나타냅니다. 높은 의미론적 엔트로피는 모델의 불확실성이 높다는 것을 의미합니다.

불확실성에 따른 동적 정책 업데이트

SEED-GRPO는 이 의미론적 엔트로피를 활용하여 정책 업데이트의 크기를 동적으로 조절합니다. 불확실성이 높은 질문(높은 의미론적 엔트로피)에는 보다 보수적인 업데이트를 적용하고, 확신이 높은 질문에는 기존의 학습 신호를 유지합니다. 이를 통해 모델의 불확실성을 효과적으로 관리하고, 보다 안정적이고 정확한 결과를 얻을 수 있습니다.

5가지 수학 추론 벤치마크에서 SOTA 달성!

연구팀은 AIME24, AMC, MATH, Minerva, OlympiadBench 등 5가지 수학 추론 벤치마크에서 SEED-GRPO의 성능을 평가했습니다. 그 결과, SEED-GRPO는 평균 정확도에서 새로운 최고 성능(State-of-the-art, SOTA)을 달성하며 불확실성 인식 정책 최적화의 효과를 입증했습니다. (AIME24 56.7%, AMC 68.7%, MATH 83.4%, Minerva 34.2%, OlympiadBench 48.0%)

새로운 가능성을 열다

SEED-GRPO는 LLM의 불확실성을 효과적으로 관리하고 성능을 향상시키는 새로운 가능성을 제시합니다. 이는 단순히 성능 향상을 넘어, LLM의 신뢰성과 안정성을 높이는 데 중요한 발걸음이 될 것입니다. 앞으로 SEED-GRPO가 다양한 분야에서 활용되어 AI의 신뢰도와 성능을 한 단계 더 끌어올릴 수 있을지 기대됩니다. 특히, 의료 진단, 법률 자문 등 신뢰성이 매우 중요한 분야에서 SEED-GRPO의 활용 가능성이 더욱 주목받을 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

Published:  (Updated: )

Author: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang

http://arxiv.org/abs/2505.12346v1