멀티스텝 정렬: 마르코프 게임으로 접근하는 새로운 AI 모델 정렬 방법
본 기사는 다회차 대화 상황에서 AI 모델의 인간 선호도와의 정렬 문제를 효율적으로 해결하는 새로운 방법인 MPO(Multi-step Preference Optimization)와 OMPO 알고리즘에 대한 연구 결과를 소개합니다. 마르코프 게임 이론과 낙관적 온라인 경사 하강법을 활용하여 수렴성을 보장하고 실험적으로 효과를 검증함으로써, 더욱 발전된 AI 시스템 개발에 기여할 것으로 예상됩니다.

혁신적인 AI 모델 정렬: 멀티스텝 대화를 위한 마르코프 게임 접근법
최근 인간 선호도에 맞춰 대규모 언어 모델을 정렬하는 강화학습 기반 방법(RLHF)이 큰 성공을 거두고 있습니다. 특히 DPO(Direct Preference Optimization)는 뛰어난 성능을 보여주었지만, 대화를 Bandit 문제로 간주하여 다회차 대화에는 적용이 제한적이었습니다. 또한, DPO는 인간 선호도의 비이행성을 제대로 반영하지 못하는 Bradley-Terry 모델 가정에 의존합니다.
Yongtao Wu 등 연구진은 이러한 한계를 극복하기 위해, 대화의 각 단계를 고려한 새로운 모델 정렬 방법, MPO(Multi-step Preference Optimization)를 제안합니다. 연구진은 대화를 두 명의 플레이어가 서로의 승률을 극대화하기 위해 경쟁하는 상수합 마르코프 게임으로 모델링했습니다. 이 접근법은 자연 행위자-비평가 프레임워크를 기반으로 하며, 낙관적 온라인 경사 하강 알고리즘(OMPO)을 통해 효율성을 높였습니다.
OMPO는 놀랍게도 $\mathcal{O}(\epsilon^{-1})$의 정책 업데이트만으로 $\epsilon$-근사 내쉬 평형에 수렴합니다. 이는 기존 방법보다 훨씬 효율적인 학습을 의미합니다. 연구진은 다회차 대화 데이터셋과 수학 추론 데이터셋을 통해 OMPO의 효과를 검증했습니다. 이 연구는 다회차 대화 상황에서 AI 모델의 정렬 문제를 해결하는 데 중요한 발걸음을 내딛었습니다.
결론적으로, MPO와 OMPO는 다회차 대화 상황을 효과적으로 처리하고, 수렴성을 보장하는 새로운 AI 모델 정렬 방법을 제시하여, 보다 자연스럽고 인간 친화적인 AI 시스템 개발에 기여할 것으로 기대됩니다. 이는 단순히 결과를 예측하는 것에서 벗어나, 인간과의 상호작용 전 과정에서의 선호도를 고려하는 진일보된 접근법이라고 할 수 있습니다.
하지만, 실제 다양한 대화 유형 및 규모에 대한 추가적인 실험과, 다양한 선호도 표현 방식에 대한 고려가 향후 연구의 과제로 남아 있습니다.
Reference
[arxiv] Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees
Published: (Updated: )
Author: Yongtao Wu, Luca Viano, Yihang Chen, Zhenyu Zhu, Kimon Antonakopoulos, Quanquan Gu, Volkan Cevher
http://arxiv.org/abs/2502.12678v1