대화형 추론: 규칙 기반 강화학습으로 LLM의 추론 능력 향상시키다
중국과학원 자동화연구소 연구팀이 개발한 DialogueReason은 독백 방식 추론의 한계를 극복하기 위해 대화형 추론 패러다임을 제시합니다. 규칙 기반 강화학습을 통해 오픈소스 LLM을 대화형 추론 모델로 학습시켜 다양한 벤치마크에서 성능 향상을 달성하였으며, 추론 과정의 해석력 향상 및 다중 에이전트 시스템 발전에도 기여할 것으로 기대됩니다.

최근 괄목할 만한 발전을 이룬 강화학습 기반 대규모 추론 모델들은 수학 및 과학 벤치마크에서 높은 성능을 보여주고 있습니다. 하지만 이러한 모델들은 주로 독백 방식의 추론에 의존하며, 이는 추론의 다양성과 일관성을 제한하고, 고정된 전략을 반복하거나 불필요한 주의력 전환을 초래하는 등의 한계를 가지고 있습니다.
중국과학원 자동화연구소의 Shu Yubo 박사 연구팀은 이러한 문제점을 해결하기 위해, 독백 방식 추론의 한계를 극복하고 추론 과정의 다양성과 일관성을 높이는 새로운 추론 패러다임인 'DialogueReason'을 제안했습니다. 이 연구는 독백 방식 추론 패턴 분석과 대화 기반 추론 접근 방식 개발로 구성됩니다. 연구팀은 여러 문제를 하나의 프롬프트로 결합한 복합 질문(Compound-QA) 과제를 도입하여 추론의 다양성과 일관성을 평가했습니다. 그 결과, Compound-QA는 독백 방식 추론의 약점을 수치적 지표와 질적 추론 과정 분석을 통해 명확히 드러냈습니다.
DialogueReason은 에이전트, 환경, 상호작용으로 구성된 대화 기반 추론 구조를 제시합니다. 연구팀은 규칙 기반 보상을 사용하는 PPO(Proximal Policy Optimization) 알고리즘을 활용하여 오픈소스 LLM인 Qwen-QWQ와 Qwen-Base를 대화형 추론 모델로 학습시켰습니다. MATH, AIME, GPQA 데이터셋을 사용한 평가 결과, 대화형 추론 모델은 복합 질문 환경에서 독백 방식 모델보다 우수한 성능을 보였습니다. 뿐만 아니라, 대화 기반 추론은 모델의 해석력 향상, 직관적인 인간-컴퓨터 상호작용, 다중 에이전트 시스템 설계 발전에도 기여할 것으로 기대됩니다.
이 연구는 단순히 성능 향상을 넘어, LLM의 추론 과정을 보다 다양하고, 일관성 있고, 투명하게 만드는 중요한 발걸음을 제시합니다. 앞으로 이러한 대화형 추론 방식이 LLM의 발전과 다양한 응용 분야에 어떤 영향을 미칠지 주목할 필요가 있습니다.
Reference
[arxiv] DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
Published: (Updated: )
Author: Yubo Shu, Zhewei Huang, Xin Wu, Chen Hu, Shuchang Zhou, Daxin Jiang
http://arxiv.org/abs/2505.07049v1