DISCO: 불균형 데이터에서도 균형을 맞추는 적응형 강화학습 알고리즘


Zhou 외 연구진의 DISCO 알고리즘은 불균형 데이터에서의 LLM 강화학습 문제를 해결하기 위해 도메인 및 난이도 인식 보상 조정을 통해 일반화 성능을 높이고 공정성을 향상시켰으며, 다양한 실험을 통해 최첨단 성능을 달성했습니다.

related iamge

대규모 언어 모델의 균형 잡힌 학습: DISCO 알고리즘의 등장

최근 대규모 언어 모델(LLM)은 인간의 피드백을 통한 강화 학습(RLHF)을 통해 인간의 선호도에 점점 더 부합되도록 발전하고 있습니다. 그중에서도 그룹 상대 정책 최적화(GRPO)는 간결함과 강력한 성능으로 주목받고 있으며, 학습된 가치 함수가 필요 없다는 장점을 가지고 있습니다.

하지만 GRPO는 균형 잡힌 도메인 분포와 그룹 간 균일한 의미적 정렬을 암시적으로 가정합니다. 현실 세계의 데이터셋에서는 이러한 가정이 거의 성립하지 않습니다. 다중 도메인의 불균형 데이터에 적용될 경우, GRPO는 지배적인 도메인에 치우쳐 최적화되어, 대표성이 부족한 도메인은 소홀히 하여 일반화 성능 저하와 공정성 문제를 야기합니다.

Zhou 외 연구진이 제시한 혁신적인 해결책: DISCO

중국과학원 소속 Yuhang Zhou를 비롯한 10명의 연구진은 이러한 문제를 해결하기 위해 도메인 인식 자기 일관성 정책 최적화(DISCO) 를 제안했습니다. DISCO는 두 가지 핵심적인 혁신을 통해 그룹 간 불균형을 해결합니다.

  • 도메인 인식 보상 조정: 도메인의 빈도를 기반으로 가중치를 조정하여 빈도 편향을 해소합니다. 즉, 데이터셋에서 적게 나타나는 도메인의 학습에 더 큰 가중치를 부여하여 균형을 맞춥니다.
  • 난이도 인식 보상 조정: 프롬프트 수준의 자기 일관성을 활용하여 불확실한 프롬프트를 식별하고 우선순위를 정하여 학습 가치를 높입니다. 즉, 모델이 어려워하는 부분에 더 집중하여 학습 효율을 높입니다.

이러한 전략을 통해 DISCO는 다양한 도메인에서 더욱 공정하고 효과적인 정책 학습을 가능하게 합니다.

실험 결과: 새로운 최첨단 기술

다양한 LLM과 불균형 학습 분포에 대한 광범위한 실험 결과, DISCO는 일반화 성능을 향상시키고, 기존 GRPO 변형보다 Qwen3 모델에서 5% 향상된 성능을 보였으며, 다중 도메인 정렬 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 이는 DISCO가 실제 문제 해결에 큰 영향을 미칠 수 있음을 시사합니다.

결론:

DISCO는 불균형 데이터에서의 강화 학습 문제를 효과적으로 해결하는 획기적인 방법론으로, 공정하고 효율적인 LLM 학습을 위한 중요한 이정표를 제시합니다. 앞으로의 연구는 DISCO의 다양한 응용 분야와 한계를 탐구하여 더욱 발전된 AI 기술 개발에 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

Published:  (Updated: )

Author: Yuhang Zhou, Jing Zhu, Shengyi Qian, Zhuokai Zhao, Xiyao Wang, Xiaoyu Liu, Ming Li, Paiheng Xu, Wei Ai, Furong Huang

http://arxiv.org/abs/2505.15074v1