난제 해결 능력: AI는 창의적인가, 혹은 단순한 계산기인가?
본 논문은 AI의 문제 해결 능력 평가에 있어 기존의 정확도 중심 접근 방식에서 벗어나, 난제 해결 과정을 분석하여 LLM의 추론 전략과 창의성 여부를 심층적으로 평가한 연구입니다. LLM이 창의적인 해결책을 제시하는 경우도 있지만, 더 효율적인 방법 대신 무차별 대입을 사용하는 한계도 보여주어, 향후 AI 발전 방향을 제시합니다.

단순한 정확도 측정을 넘어, AI의 사고 과정을 들여다보다!
최근 Simeng Han을 비롯한 10명의 연구진이 발표한 논문, "Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models"은 AI 평가의 새로운 지평을 열었습니다. 기존의 정확도 중심 평가에서 벗어나, AI가 어떻게 문제를 해결하는지 그 과정 자체에 초점을 맞춘 것입니다. 연구진은 긴 서술 형태의 난제(brainteasers)를 활용하여 LLM의 추론 전략을 심층 분석했습니다.
두 가지 문제 해결 전략: 창의적인 통찰 vs. 무차별 대입
난제는 창의적인 통찰을 필요로 하는 간결한 해법과, 단순한 연산을 반복하는 지루한 해법, 두 가지 접근 방식을 모두 허용합니다. 연구진은 이를 통해 LLM이 어떤 방식을 선택하는지, 그리고 그 이유를 탐구했습니다. 연구는 단순히 정답 여부를 넘어, 해결 과정의 질과 창의성까지 평가하는 획기적인 시도입니다.
LLM의 추론 과정, 5단계로 분석하다!
연구진은 LLM의 추론 과정을 다섯 가지 단계로 나누어 분석했습니다. 먼저, 난제를 정확한 수학적 형식으로 변환하는 의미 분석(semantic parsing) , 그 다음 수학적 형식으로부터 해결책을 생성하는 해결책 생성(generating solutions) , 그리고 기존 정답과 비교하여 자가 수정하는 자가 수정(self-correcting solutions) , 단계별 해결 과정을 스케치하는 단계별 스케치(step-by-step sketches) , 마지막으로 힌트를 활용하는 힌트 활용(making use of hints) 까지 상세히 분석했습니다.
놀라운 발견: AI의 창의성, 그리고 한계
연구 결과, LLM은 예상 외로 창의적이고 통찰력 있는 해결책을 제시하는 경우가 많았습니다. 이는 LLM이 새로운 문제를 창의적으로 해결하는 데 필요한 능력을 어느 정도 갖추고 있음을 시사합니다. 하지만 더 효율적인 창의적인 해결책이 있음에도 불구하고, 무차별적인 방법에 의존하는 경우도 존재했습니다. 이는 LLM의 추론 능력 향상을 위한 중요한 과제를 제시합니다.
결론: AI의 발전, 창의성에 대한 끊임없는 질문
이 연구는 AI의 문제 해결 능력을 평가하는 새로운 패러다임을 제시하며, 단순한 정확성을 넘어 AI의 사고 과정과 창의성에 대한 깊이 있는 이해를 제공합니다. AI의 발전은 단순히 계산 능력의 향상을 넘어, 진정한 의미의 창의성과 통찰력을 갖추는 방향으로 나아가야 함을 보여주는 중요한 연구라 할 수 있습니다.
Reference
[arxiv] Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models
Published: (Updated: )
Author: Simeng Han, Stephen Xia, Grant Zhang, Howard Dai, Chen Liu, Lichang Chen, Hoang Huy Nguyen, Hongyuan Mei, Jiayuan Mao, R. Thomas McCoy
http://arxiv.org/abs/2505.10844v1