거대 언어 모델의 추론 능력 향상: '생각 너무 많이 하는 것'을 넘어서
거대 언어 모델(LLM)의 추론 능력 향상을 위한 컨텍스트 학습(ICL)의 중요성을 강조하는 연구 결과가 발표되었습니다. 특히, CoT 프롬프팅이 모델의 크기에 따라 다르게 영향을 미치며, 과도한 사고를 줄이고 성능을 향상시키는 효과가 있다는 것을 밝혔습니다.

최근 거대 언어 모델(LLM) 분야의 괄목할 만한 발전으로, 사고 과정을 확장하고 자기 수정 능력을 갖춘 추론 LLM(RLLM)이 등장했습니다. 이는 테스트 시간 스케일링의 효과를 보여주는 사례입니다. RLLM은 훈련을 통해 얻은 고유한 사고 연쇄(CoT) 추론 능력을 보유하고 있으며, 이는 자연스럽게 다음과 같은 질문을 낳습니다. "챗봇 LLM을 위한 인기 있는 컨텍스트 학습(ICL) 방법인 CoT 프롬프팅은 RLLM의 추론 능력 향상에 정말 필요할까요?"
중국과학원 소속 Ge Yuyao 박사가 이끄는 연구팀은 수학적 추론 과제에서 제로샷 CoT와 퓨샷 CoT가 RLLM에 미치는 영향에 대한 첫 번째 종합 분석 결과를 발표했습니다. 15억~320억 매개변수 규모의 모델들을 분석한 결과, 우려와는 달리 CoT 프롬프팅이 대부분의 시나리오에서 RLLM의 성능을 크게 향상시킨다는 것을 발견했습니다. 흥미로운 점은 모델의 크기에 따라 CoT 프롬프팅 효과가 다르게 나타난다는 것입니다. 대용량 모델은 간단한 과제에서는 개선 효과가 미미하지만 복잡한 문제에서는 상당한 성능 향상을 보인 반면, 소형 모델은 그 반대의 결과를 보였습니다.
연구팀은 CoT 프롬프팅이 사고 토큰 수와 추론 단계의 분포를 효과적으로 제어하여 일부 경우 과도한 반추를 약 90%까지 줄이는 것을 확인했습니다. 또한, 주의 회귀 분석을 통해 RLLM이 반추 관련 단어에 과적합되는 현상을 발견했으며, 이는 외부 CoT 안내를 통해 완화될 수 있다는 점도 밝혔습니다. 특히, RLLM에서는 원샷 CoT가 퓨샷 CoT보다 성능이 훨씬 뛰어났습니다. 이 연구는 적절한 프롬프팅 전략을 통해 RLLM의 성능을 최적화하는 데 중요한 통찰력을 제공합니다. 즉, 단순히 '생각하는 능력'만으로는 부족하고, 적절한 프롬프트를 통한 '방향 제시'가 RLLM의 추론 능력 향상에 중요한 요소임을 강조하고 있습니다. 앞으로 더욱 효과적인 RLLM 개발을 위한 중요한 이정표가 될 것으로 예상됩니다.
주요 연구진: Ge Yuyao, Shenghua Liu, Yiwei Wang, Lingrui Mei, Lizhe Chen, Baolong Bi, Xueqi Cheng (중국과학원)
Reference
[arxiv] Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
Published: (Updated: )
Author: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Lizhe Chen, Baolong Bi, Xueqi Cheng
http://arxiv.org/abs/2503.19602v1