혁신적인 AI 학습 방법 등장: 정책 레이블 선호 학습(PPL)


카이스트 연구팀이 개발한 정책 레이블 선호 학습(PPL)은 기존 RLHF의 한계를 극복하고, 고차원 연속 제어 작업에서 우수한 성능을 보이는 새로운 AI 학습 방법론이다. '후회(regret)' 개념을 도입하여 인간의 선호도를 더욱 정확하게 반영함으로써, AI의 의사결정 능력을 향상시킨다.

related iamge

인간의 선호도를 넘어: 더 나은 AI 학습을 위한 새로운 패러다임

최근 AI 분야에서 인간의 선호도를 기반으로 AI를 학습시키는 RLHF(인간 피드백 기반 강화학습)가 주목받고 있습니다. 하지만 기존 RLHF는 학습 과정에서 최적의 정책으로 생성된 궤적을 잘못 해석하는 경우가 종종 발생하여, 정확한 가능성 추정과 최적의 학습을 방해하는 문제점이 있었습니다.

그 해결책으로 등장한 것이 바로 '정책 레이블 선호 학습(PPL)'입니다. 카이스트 연구팀 (조태현, 주석훈, 한승엽, 김도형, 이경재, 이정우)의 연구 결과에 따르면, PPL은 기존 RLHF의 한계를 극복하기 위해 '후회(regret)'라는 개념을 도입하여 인간의 선호도를 모델링합니다. 이는 행동 정책 정보를 반영하여 최적 정책을 명시적인 보상 없이 직접 학습하는 직접 선호도 최적화 프레임워크에서 영감을 얻은 것입니다. 또한, 후회 기반 원칙에서 파생된 대조적 KL 정규화를 통해 순차적 의사결정에서 RLHF를 강화합니다.

쉽게 말해, PPL은 AI가 인간의 의도를 더 정확하게 이해하고, 그에 따라 더 나은 의사결정을 내릴 수 있도록 돕는 새로운 학습 방법론입니다. 이는 마치, 운전을 배우는 사람에게 단순히 '잘 운전해'라고 말하는 대신, '이 상황에서는 이렇게 하는 것이 더 효율적이고 안전해'라고 구체적인 피드백을 제공하는 것과 같습니다.

연구팀은 고차원 연속 제어 작업에서 실험을 통해 PPL의 우수성을 입증했습니다. 그 결과, 기존 RLHF보다 오프라인 학습 성능이 크게 향상되었고, 온라인 환경에서도 효과적임을 확인했습니다. 이는 AI의 학습 효율성과 안정성을 크게 높일 수 있는 획기적인 발견입니다.

이는 단순한 기술적 발전을 넘어, AI가 인간과 더욱 원활하게 상호작용하고, 인간의 의도를 더 잘 반영하는 미래를 향한 중요한 한 걸음입니다. 앞으로 PPL이 다양한 AI 분야에 적용되어 더욱 발전된 AI 시스템 개발에 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Policy-labeled Preference Learning: Is Preference Enough for RLHF?

Published:  (Updated: )

Author: Taehyun Cho, Seokhun Ju, Seungyub Han, Dohyeong Kim, Kyungjae Lee, Jungwoo Lee

http://arxiv.org/abs/2505.06273v2