딥씽커: 빠르고 느리게 생각하는 법을 배우는 AI
스티븐 청 등 연구진의 논문 "Thinker: Learning to Think Fast and Slow"는 심리학 이중 과정 이론을 기반으로 LLM의 추론 능력 향상을 위한 새로운 학습 방식을 제시합니다. 빠른 사고와 느린 사고를 결합한 네 단계 학습 과정을 통해 정확도와 효율성을 동시에 향상시키는 성과를 거두었습니다. 이 연구는 AI의 추론 능력 발전에 중요한 의미를 지닙니다.

최근 스티븐 청, 두웬위, 푸지에 연구진이 발표한 논문 "Thinker: Learning to Think Fast and Slow"는 주목할 만한 성과를 보여줍니다. 이 연구는 대규모 언어 모델(LLM)의 추론 능력 향상에 초점을 맞추고 있으며, 특히 수학 및 코딩과 같은 영역에서 질문-응답(QA) 과제에 강화 학습(RL)을 적용하는 방식을 제시합니다.
기존 LLM은 긴 문맥 길이를 통해 검색 기능을 수행할 수 있지만, 정확성이 떨어지고 불확실성이 높아 장황하고 중복적인 응답을 생성하는 경향이 있었습니다. 연구진은 심리학의 이중 과정 이론에서 영감을 얻어, '빠른 사고(Fast Thinking)', '검증(Verification)', '느린 사고(Slow Thinking)', '요약(Summarization)'의 네 단계로 구성된 새로운 QA 과제를 제안했습니다.
빠른 사고(Fast Thinking) 단계에서는 LLM이 엄격한 토큰 제한 내에서 답변을 생성해야 합니다. 이는 직관적이고 빠른 판단 능력을 강화하는 데 초점을 맞춥니다. 검증(Verification) 단계에서는 모델이 자신의 초기 응답을 평가합니다. 느린 사고(Slow Thinking) 단계에서는 더욱 신중한 고려를 통해 초기 응답을 개선합니다. 마지막 요약(Summarization) 단계에서는 이전 단계의 개선 사항을 명확한 단계로 정제합니다.
이러한 네 단계를 거치는 새로운 학습 방식은 놀라운 결과를 가져왔습니다. Qwen2.5-1.5B 모델의 경우 평균 정확도가 24.9%에서 27.9%로 향상되었고, DeepSeek-R1-Qwen-1.5B 모델은 45.9%에서 49.8%로 향상되었습니다. 특히 Qwen2.5-1.5B 모델의 경우, 빠른 사고(Fast Thinking) 모드만으로도 1000개 미만의 토큰을 사용하여 26.8%의 정확도를 달성, 상당한 추론 효율성 향상을 보여주었습니다.
이 연구는 직관과 숙고된 추론이 서로 구분되면서도 상호 보완적인 시스템이며, 목표 지향적인 훈련을 통해 그 효과를 극대화할 수 있음을 시사합니다. 이는 LLM의 추론 능력을 향상시키는 새로운 패러다임을 제시하며, 앞으로 AI 발전에 중요한 이정표가 될 것으로 기대됩니다. 이는 단순한 정확도 향상을 넘어, AI가 인간처럼 '생각하는' 방식에 대한 새로운 이해를 제공한다는 점에서 더욱 큰 의미를 지닙니다.
Reference
[arxiv] Thinker: Learning to Think Fast and Slow
Published: (Updated: )
Author: Stephen Chung, Wenyu Du, Jie Fu
http://arxiv.org/abs/2505.21097v1