Pass@k 정책 최적화: 더 어려운 강화학습 문제 해결의 돌파구
Christian Walder와 Deep Karkhanis의 연구는 기존 강화학습의 한계를 극복하는 Pass@k 정책 최적화(PKPO)를 제시합니다. PKPO는 샘플 집합의 성능을 최적화하여 어려운 문제 해결에 효과적이며, 실제 LLM 실험을 통해 그 효용성을 입증했습니다.

최근 Christian Walder와 Deep Karkhanis가 발표한 논문 "Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems"은 강화학습(RL) 분야에 새로운 가능성을 제시합니다. 기존 RL 알고리즘은 각 문제에 대해 여러 개의 솔루션을 독립적으로 평가하여 최고의 하나(pass@1)에 집중하는 경향이 있습니다. 하지만 이러한 방식은 다양한 솔루션의 집합적 유용성을 간과하여 탐색 능력을 제한하고, 어려운 문제 해결에 어려움을 겪을 수 있다는 점을 지적합니다.
그 해결책으로 제시된 것이 바로 Pass@k 정책 최적화(PKPO) 입니다. PKPO는 샘플들의 집합적 성과(pass@k)를 최적화하여, 개별 샘플의 성능뿐 아니라 전체적인 성능 향상을 도모합니다. 논문에서는 이를 위해 pass@k와 그 기울기에 대한 새로운 저분산 불편 추정기를 제시하고, 이를 통해 표준 RL 알고리즘과 호환 가능한 효율적인 변환 함수를 도출했습니다. 이는 기존 연구들이 k=n(샘플 개수)로 제한된 것과 달리, 임의의 k값에 대해 pass@k 성능을 최적화할 수 있음을 의미합니다.
더 나아가, PKPO는 학습 과정 중 k값을 조절하는 어닐링(annealing) 기법을 통해 pass@1과 pass@k 성능을 동시에 향상시킬 수 있습니다. 이는 마치 넓게 탐색하다가 점차 목표에 집중하는 전략과 같습니다. 실제로, 개방형 LLM인 GEMMA-2를 이용한 실험에서 PKPO는 목표 k값에 효과적으로 최적화되었으며, 높은 k값은 더 어렵고 많은 문제를 해결하는 데 기여했습니다. 특히 기존 pass@1 최적화 방식이 한계에 부딪히는 어려운 문제 집합에서 PKPO는 개별 샘플의 유용성보다 집합적 유용성을 우선시함으로써 학습을 촉진하는 효과를 보였습니다.
이 연구는 단순히 새로운 알고리즘을 제시하는 것을 넘어, 강화학습의 한계를 극복하고 더욱 복잡한 문제에 도전할 수 있는 새로운 가능성을 열었습니다. 특히, k값 어닐링을 통한 pass@1과 pass@k 성능의 동시 향상은 실용적인 측면에서 큰 의미를 지닙니다. 앞으로 PKPO가 다양한 분야에서 활용되어 강화학습의 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems
Published: (Updated: )
Author: Christian Walder, Deep Karkhanis
http://arxiv.org/abs/2505.15201v1