#돌에서 보석을 캐내다: LLM 추론을 위한 부정적 예시 증강 정책 최적화


Yang Zhaohui 등 연구진은 LLM 추론 성능 향상을 위해 부정적 예시를 활용하는 새로운 정책 최적화 프레임워크 BCPG-NSA를 제안했습니다. LLM과 PRM을 결합한 정확도 평가와 부정적 예시 증강을 통해 샘플 효율성을 높이고 견고성 및 확장성을 확보했습니다. 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.

related iamge

돌에서 보석을 캐내다: LLM 추론을 위한 부정적 예시 증강 정책 최적화

최근 몇 년간, 괄목할 만한 발전을 이룬 대규모 언어 모델(LLM)의 추론 능력은 짧은 사고 과정(CoT) 패턴에서 긴 CoT 패턴으로 패러다임 전환을 맞이했습니다. 하지만 긴 CoT 모델의 막대한 계산 비용으로 인해, 제한된 훈련 데이터셋의 활용도를 극대화하는 것이 매우 중요해졌습니다.

Yang Zhaohui 등 6명의 연구진이 발표한 논문, "Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning"은 이러한 문제에 대한 혁신적인 해결책을 제시합니다. 연구진은 부정적인 응답들에 자기 반성 및 오류 수정 단계와 같은 귀중한 정보가 포함되어 있음을 발견했습니다. 기존의 방법들은 부정적 예시를 완전히 무시하거나 모든 토큰에 동일한 페널티를 적용하는 등 이러한 잠재적 학습 신호를 활용하지 못하는 한계를 가지고 있었습니다.

이에 연구진은 부정적 예시 증강을 통한 행동 제약 정책 경사(BCPG-NSA) 라는 새로운 정책 최적화 프레임워크를 제안합니다. BCPG-NSA는 다음 세 단계로 구성됩니다.

  1. 샘플 분할: 부정적 예시를 효과적으로 분석하고 활용하기 위한 전처리 과정입니다.
  2. 합의 기반 단계 정확도 평가: LLM과 PRM(확률적 추론 모델) 판단자를 결합하여 각 단계의 정확성을 평가합니다. 이는 단순한 LLM의 판단보다 훨씬 신뢰할 수 있는 평가를 가능하게 합니다.
  3. 부정적 예시 증강을 통한 정책 최적화: 부정적 샘플 내의 긍정적 단계를 효과적으로 추출하여 정책을 개선합니다. 이는 기존 방법의 단순한 페널티 부여 방식과는 달리, 부정적 예시에서도 학습에 유용한 정보를 얻을 수 있도록 합니다.

실험 결과, BCPG-NSA는 동일한 훈련 데이터셋을 사용하여 여러 어려운 수학/코딩 추론 벤치마크에서 기존 방법들을 능가하는 성능을 보였습니다. 샘플 효율성을 향상시켰을 뿐만 아니라, 여러 번의 반복에도 견고성과 확장성을 유지하는 것을 보여주었습니다. 이는 제한된 데이터셋으로도 LLM의 추론 성능을 크게 향상시킬 수 있는 가능성을 제시합니다. 마치 돌 속에 숨겨진 보석을 찾아내는 것과 같이, BCPG-NSA는 LLM의 잠재력을 극대화하는 데 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

Published:  (Updated: )

Author: Zhaohui Yang, Shilei Jiang, Chen Hu, Linjing Li, Shihong Deng, Daxin Jiang

http://arxiv.org/abs/2505.14403v1