능동 학습으로 AI 모델 훈련 효율 극대화: 'ActPRM'의 놀라운 성과


Keyu Duan 등 연구진이 개발한 ActPRM은 능동 학습을 통해 PRM 훈련 데이터의 주석 작업을 50% 감소시키면서 동등하거나 더 나은 성능을 달성했습니다. 100만 개 이상의 수학 추론 경로 필터링을 통해 ProcessBench와 PRMBench에서 SOTA 성능을 달성하며 AI 모델 훈련의 효율성을 혁신적으로 개선했습니다.

related iamge

능동 학습으로 AI 모델 훈련 효율 극대화: 'ActPRM'의 놀라운 성과

최근, 대규모 언어 모델(LLM)의 단계별 지도 학습을 위한 프로세스 보상 모델(PRM)이 주목받고 있습니다. 하지만 PRM 훈련 데이터의 주석 작업은 인간과 LLM 모두에게 상당한 어려움을 안겨주는 과제였습니다. Keyu Duan 등 8명의 연구진은 이 문제를 해결하기 위해 능동 학습 기반의 새로운 접근 방식인 ActPRM을 제안했습니다.

ActPRM은 훈련 데이터 중 불확실성이 가장 높은 샘플을 우선적으로 선택, 주석 작업의 비용을 획기적으로 줄입니다. 모델은 순전파 후 불확실성을 추정하고, 불확실성이 높은 데이터만을 선택적으로 유지합니다. 이후, 비용이 많이 드는 추론 모델을 사용하여 선택된 데이터에 주석을 달고, 해당 주석을 기반으로 손실을 계산하여 PRM의 가중치를 업데이트합니다.

연구진은 ActPRM과 기존의 미세 조정 방식을 풀 기반 능동 학습 환경에서 비교 평가했습니다. 그 결과, ActPRM은 주석 작업량을 50% 감소시키면서 동등하거나 더 나은 성능을 달성하는 놀라운 결과를 보였습니다. 이는 훈련 데이터 확보에 드는 시간과 비용을 절감하여 AI 모델 개발의 효율성을 크게 향상시킬 수 있음을 시사합니다.

더 나아가, 연구진은 ActPRM을 활용하여 100만 개가 넘는 수학 추론 경로를 필터링하여 데이터의 60%를 유지하는 데 성공했습니다. 이렇게 선택된 데이터셋으로 재훈련한 결과, ProcessBench에서 75.0%, PRMBench에서 **65.5%**의 정확도를 달성, 새로운 최첨단(SOTA) PRM을 구축했습니다. 이는 ActPRM의 효율성과 성능을 명확히 보여주는 결과입니다.

이 연구는 단순히 효율적인 훈련 방법을 제시하는 것을 넘어, 대규모 데이터셋을 효과적으로 활용하는 새로운 전략을 제시함으로써 AI 모델 개발의 패러다임 변화를 예고합니다. ActPRM의 등장은 앞으로 AI 모델 개발의 속도와 효율성을 비약적으로 높일 잠재력을 가지고 있으며, 다양한 분야에서 AI 기술의 발전을 가속화할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Efficient Process Reward Model Training via Active Learning

Published:  (Updated: )

Author: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou

http://arxiv.org/abs/2504.10559v1