Text2Grad: 자연어 피드백으로 강화 학습의 혁신을 이끌다
마이크로소프트 연구진이 개발한 Text2Grad는 자연어 피드백을 토큰 단위의 기울기로 변환하여 강화 학습을 수행하는 새로운 패러다임입니다. 기존 RLHF의 한계를 극복하고, 더 높은 성능과 해석 가능성을 제공하며, 요약, 코드 생성, 질문 응답 등 다양한 작업에서 우수한 성능을 보입니다.

기존의 강화 학습 기반 언어 모델 학습(RLHF)은 단순한 스칼라 보상에 의존하여, 모델의 성공 또는 실패 원인에 대한 세밀한 분석이 어려웠습니다. 이는 학습 속도 저하 및 불투명성으로 이어지는 주요 원인이었습니다. 최근 연구들은 프롬프트나 반추를 통해 자연어 비평을 활용하는 방식을 제시했지만, 모델 파라미터 자체는 변경하지 않아 한계가 있었습니다.
하지만 이제, 마이크로소프트 연구진(Hanyang Wang 외)이 발표한 Text2Grad는 이러한 한계를 뛰어넘는 획기적인 방법을 제시합니다. Text2Grad는 자유 형식의 자연어 피드백을 토큰 단위의 기울기(gradient)로 변환하는 강화 학습 패러다임입니다. 인간(혹은 프로그램)의 비평을 받으면, Text2Grad는 각 피드백 구절을 관련 토큰 범위와 연결하고, 이를 미분 가능한 보상 신호로 변환하여, 문제가 되는 모델 정책 부분을 직접 수정하는 기울기 업데이트를 수행합니다. 이를 통해 전반적인 조정이 아닌, 피드백에 따른 정밀한 조정이 가능해집니다.
Text2Grad는 크게 세 가지 구성 요소로 이루어져 있습니다. 첫째, 비평과 토큰 범위를 연결하는 고품질 피드백 주석 파이프라인, 둘째, 답변에 대한 토큰 단위 보상을 예측하고 설명적인 비평을 생성하는 정교한 보상 모델, 셋째, 자연어 기울기를 역전파하는 토큰 단위 정책 최적화기입니다.
요약, 코드 생성, 질문 응답 등 다양한 작업에서 Text2Grad는 스칼라 보상 RL 및 프롬프트 기반 기준 모델을 꾸준히 능가하며, 더 높은 작업 성과와 향상된 해석 가능성을 제공합니다. 이 연구 결과는 자연어 피드백을 기울기로 변환하면 정밀한 정책 최적화에 효과적인 신호가 된다는 것을 보여줍니다. Text2Grad의 코드는 GitHub에서 확인할 수 있습니다.
결론적으로 Text2Grad는 자연어 피드백을 활용하여 강화 학습의 효율성과 해석 가능성을 획기적으로 향상시킨 혁신적인 기술입니다. 이를 통해 더욱 정교하고, 인간의 이해를 돕는 AI 모델 개발에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] Text2Grad: Reinforcement Learning from Natural Language Feedback
Published: (Updated: )
Author: Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
http://arxiv.org/abs/2505.22338v1