사고의 틈을 메우다: 향상된 Chain-of-Thought 튜닝을 위한 '사고의 도약' 해결


중국과학원 연구팀이 제시한 CoT-Bridge 모델은 사고의 도약 문제를 해결하여 LLM의 수학적 추론 능력을 향상시켰습니다. ScaleQM+ 데이터셋을 활용한 훈련을 통해 다양한 벤치마크에서 기존 모델 대비 최대 5.87%의 성능 향상을 달성했으며, 도메인 외 논리적 추론 과제에서도 효과를 보였습니다.

related iamge

최근 대규모 언어 모델(LLM)은 Chain-of-Thought(CoT) 추론을 통해 수학 문제 해결 능력에서 놀라운 발전을 이루었습니다. 하지만 기존 수학 CoT 데이터셋은 전문가들이 중간 단계를 생략하는 '사고의 도약(Thought Leap)' 현상으로 인해 모델 학습 및 일반화에 어려움을 겪고 있습니다.

중국과학원(CAS) 산하 연구팀은 이러한 문제를 해결하기 위해 'CoT Thought Leap Bridge Task' 라는 새로운 접근법을 제시했습니다. 이는 사고의 도약을 자동으로 감지하고 누락된 중간 추론 단계를 생성하여 CoT의 완성도와 일관성을 높이는 것을 목표로 합니다. 연구팀은 구조화된 ScaleQuestMath 데이터셋을 기반으로 ScaleQM+ 라는 특수 훈련 데이터셋을 구축하고, 이를 사용하여 CoT-Bridge 모델을 훈련했습니다.

다양한 수학적 추론 벤치마크에서의 실험 결과, CoT-Bridge로 훈련된 모델은 기존 모델보다 성능이 향상되었으며, NuminaMath에서는 최대 +5.87% 의 성능 향상을 보였습니다. 뿐만 아니라, 증류된 데이터는 +3.02%, 강화 학습의 시작점은 +3.1% 향상되는 등 괄목할 만한 성과를 달성했습니다. CoT-Bridge는 기존 최적화 기법과 호환되는 플러그 앤 플레이 모듈처럼 작동하며, 도메인 외 논리적 추론 과제에서도 성능 향상을 보여, 추론 완성도 향상이 광범위하게 적용 가능한 이점을 제공함을 확인했습니다.

주요 연구진: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang

이 연구는 LLM의 수학적 추론 능력 향상에 새로운 가능성을 제시하며, 향후 더욱 정교하고 강력한 AI 모델 개발에 기여할 것으로 기대됩니다. '사고의 도약' 문제 해결을 위한 이러한 노력은 AI의 한계를 극복하고 인간 수준의 추론 능력에 한층 다가서는 중요한 발걸음이라고 할 수 있습니다. 🤔


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Published:  (Updated: )

Author: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang

http://arxiv.org/abs/2505.14684v2