DisCO: 차별적 제약 최적화를 통한 대규모 추론 모델 강화
본 기사는 Gang Li 등 연구진이 발표한 DisCO(차별적 제약 최적화) 프레임워크에 대한 내용을 다룹니다. DisCO는 기존 GRPO 방식의 한계를 극복하고, 질문 난이도 편향 문제와 엔트로피 불안정성 문제를 해결하여 대규모 추론 모델의 성능 향상에 기여하는 새로운 강화 학습 기법입니다. 실험 결과, DisCO는 GRPO 및 DAPO보다 우수한 성능을 보였습니다.

DeepSeek-R1의 성공과 GRPO의 한계
최근 DeepSeek-R1의 성공으로 대규모 추론 모델(LRM) 강화 학습에 대한 관심이 높아졌습니다. 특히, 그룹 상대 정책 최적화(GRPO) 기법이 주목받았지만, 이번 연구에서는 GRPO의 이진 보상 설정에서의 한계점, 특히 질문 난이도 편향 문제를 지적합니다. 이는 쉬운 질문에 대한 학습에 치중되어 어려운 질문에 대한 성능 향상이 저조함을 의미합니다.
차별적 제약 최적화(DisCO) 프레임워크의 등장
Gang Li 등 연구진은 이러한 GRPO의 한계를 극복하기 위해 새로운 차별적 제약 최적화(DisCO) 프레임워크를 제안합니다. DisCO는 다음과 같은 세 가지 주요 차별점을 가지고 있습니다.
- 차별적 목적 함수: GRPO의 그룹 상대 목적 함수 대신, 점수 함수로 정의된 차별적 목적 함수를 사용합니다. 이를 통해 질문 난이도 편향 문제를 근본적으로 해결합니다.
- 비클리핑 RL 대체 목적 함수: 클리핑 기반 대체 함수 대신 비클리핑 RL 대체 목적 함수를 점수 함수로 사용하여 엔트로피 불안정성 문제를 해결합니다.
- 제약 최적화: KL 발산 제약 조건을 적용하여 안정적인 학습을 보장합니다.
DisCO의 우수성과 실험 결과
DisCO는 질문 난이도 편향 문제를 완전히 해결하고, 엔트로피 불안정성을 해소하여 GRPO 및 그 변형들보다 훨씬 안정적이고 효과적인 학습을 가능하게 합니다. 또한, 데이터 불균형 문제에도 효과적으로 대처할 수 있습니다.
1.5B 모델을 사용한 수학적 추론 능력 향상 실험 결과, DisCO는 GRPO보다 평균 7%, DAPO보다 평균 6%의 성능 향상을 보였습니다. 이는 6개의 벤치마크 작업에서 모두 일관되게 나타났습니다. 이는 DisCO가 LRM 강화 학습 분야에서 새로운 가능성을 제시하는 중요한 결과입니다.
결론: 새로운 가능성을 여는 DisCO
DisCO는 LRM 강화 학습 분야에 중요한 진전을 가져온 연구 결과입니다. 질문 난이도 편향과 엔트로피 불안정성 문제를 효과적으로 해결하여 더욱 강력하고 안정적인 대규모 추론 모델을 개발하는 데 기여할 것으로 기대됩니다. 앞으로 DisCO를 기반으로 한 다양한 연구와 응용이 활발하게 진행될 것으로 예상됩니다. 🎉
Reference
[arxiv] DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
Published: (Updated: )
Author: Gang Li, Ming Lin, Tomer Galanti, Zhengzhong Tu, Tianbao Yang
http://arxiv.org/abs/2505.12366v1