QuestBench: LLM의 정보 획득 능력, 과연 어느 정도일까요?
본 기사는 LLM의 추론 능력 평가에 새로운 벤치마크 QuestBench를 소개합니다. QuestBench는 LLM이 필요한 정보를 얻기 위해 적절한 질문을 생성하는 능력을 평가하며, 최첨단 모델들이 완벽히 정의된 문제에서는 높은 정확도를 보이지만, 정보가 부족한 문제에서는 어려움을 겪는다는 점을 밝혔습니다. 이는 LLM의 정보 획득 능력에 대한 심층 연구의 필요성을 강조합니다.

최근 대규모 언어 모델(LLM)의 추론 능력 향상에 대한 연구가 활발합니다. 수학, 논리 문제 등 다양한 벤치마크에서 LLM의 성능을 높이는 데 집중해왔죠. 하지만 기존 연구는 문제가 명확하게 정의되어 있다는 전제를 깔고 있습니다. 실제 세상에선 LLM에 주어지는 질문이 불완전하고, 필요한 정보를 얻어야만 문제를 풀 수 있는 경우가 많습니다.
벨린다 리, 김빈, 지 왕 등 연구진은 이러한 현실적인 문제를 해결하기 위해 새로운 벤치마크 QuestBench를 개발했습니다. QuestBench는 하나의 변수만 부족한 제약 만족 문제(CSP) 라는 특수한 형태를 이용하여 LLM이 필요한 최소한의 질문을 찾아내는 능력을 엄밀하게 평가합니다. 이를 통해 각 문제의 난이도를 정량적으로 분석할 수 있게 된 것이죠.
QuestBench는 다음과 같은 네 가지 유형의 과제를 포함합니다.
- Logic-Q: 하나의 명제가 누락된 논리 추론 과제
- Planning-Q: 초기 상태가 부분적으로만 관찰 가능한 PDDL 계획 문제
- GSM-Q: 사람이 주석을 단 초등 수학 문제 (하나의 변수 누락)
- GSME-Q: GSM-Q의 변형으로, 사람이 단어 문제를 방정식으로 변환
LLM은 제시된 옵션 중에서 정답인 질문을 선택해야 합니다. 흥미롭게도, 최첨단 모델들은 GSM-Q와 GSME-Q에서는 뛰어난 성능을 보였지만, Logic-Q와 Planning-Q에서는 정확도가 40~50%에 불과했습니다. 이 분석을 통해 연구진은 잘 정의된 추론 문제를 잘 푸는 능력만으로는 충분하지 않다는 것을 발견했습니다. 모델들은 문제를 완전히 이해하더라도, 필요한 질문을 찾는 데 어려움을 겪는다는 것이죠! 더욱 놀라운 점은 Planning-Q 영역에서 LLM들이 '잘 모르겠다'는 옵션이 주어져도 회피하는 경향을 보였다는 점입니다.
이 연구는 LLM의 정보 획득 능력에 대한 심층적인 조사가 필요하다는 것을 시사합니다. 단순히 문제 해결 능력뿐 아니라, 스스로 필요한 정보를 얻기 위해 질문하는 능력 또한 중요한 평가 지표임을 보여주는 것이죠. QuestBench는 LLM의 지능을 한 단계 더 깊이 이해하는 데 도움을 줄 획기적인 벤치마크가 될 것으로 기대됩니다.
Reference
[arxiv] QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?
Published: (Updated: )
Author: Belinda Z. Li, Been Kim, Zi Wang
http://arxiv.org/abs/2503.22674v1