놓친 전제가 심화시키는 과도한 사고: 추론 모델, 비판적 사고 능력을 잃고 있는가?


본 논문은 추론 LLM의 과도한 사고 문제를 다루며, 누락된 전제 질문에서 이 문제가 심화되는 것을 밝히고, 추론을 위해 특별히 훈련되지 않은 LLM이 더 나은 성능을 보인다는 점을 강조합니다. 이는 LLM 훈련 방식의 개선 필요성을 시사하며, 과도한 사고의 전파 가능성까지 제시하여 인공지능의 안전성과 신뢰성에 대한 중요한 논의를 촉구합니다.

related iamge

최근 Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou 연구팀이 발표한 논문 "Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?" 에서 놀라운 발견이 보고되었습니다. 연구팀은 강화 학습이나 지도 학습으로 훈련된 추론 대규모 언어 모델(LLM)들이 전제가 누락된 질문(MiP) 에 대해 극도로 긴 답변을 생성하는 현상을 발견했습니다. 이는 단순히 답변이 긴 것을 넘어, 불필요하고 비효율적인 사고, 즉 과도한 사고(Overthinking) 로 이어진다는 점에서 심각한 문제입니다. 연구팀은 이를 MiP-Overthinking이라고 명명했습니다.

흥미로운 점은, 추론을 위해 특별히 훈련되지 않은 LLM들이 누락된 전제 질문에 대해 훨씬 더 좋은 성능을 보였다는 것입니다. 이들은 질문의 문제점을 빠르게 파악하고 짧은 답변을 생성했습니다. 이는 현재 추론 LLM의 훈련 방식에 효율적인 사고를 제대로 장려하지 않는 심각한 결함이 있음을 시사합니다. 즉, 모델들이 사고 패턴을 남용하고 있다는 것입니다.

연구팀은 다양한 유형의 LLM에 대한 사고 길이, 과도한 사고 패턴, 비판적 사고 위치 등을 세밀하게 분석했습니다. 더 나아가, 추가적인 제거 연구(ablation study)를 통해 과도한 사고가 추론 모델의 응답 증류를 통해 전파될 수 있음을 밝혀냈습니다. 이는 마치 과도한 사고가 전염병처럼 퍼져나갈 수 있다는 것을 의미합니다.

이 연구는 과도한 사고 문제에 대한 이해를 높이고, 이 문제를 완화하기 위한 새로운 통찰력을 제공합니다. 단순히 답변의 길이만을 평가하는 것이 아니라, LLM의 사고 과정 자체의 효율성을 평가하는 새로운 척도가 필요하다는 것을 시사합니다. 앞으로의 연구는 LLM의 비판적 사고 능력 향상을 위한 새로운 훈련 방법 개발에 초점을 맞춰야 할 것입니다. 이는 인공지능의 안전성과 신뢰성을 높이는 데 매우 중요한 과제입니다. 단순히 답변을 잘 생성하는 것만이 아니라, 올바르고 효율적으로 사고하는 LLM을 개발해야 하는 시점입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Published:  (Updated: )

Author: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

http://arxiv.org/abs/2504.06514v2