GPT-4와 인간의 유추 추론 능력 비교: 전략적 의사결정에서의 협력 가능성


GPT-4는 유추 추론에서 높은 재현율을 보이지만 정확도는 낮은 반면, 인간은 정확도는 높지만 재현율이 낮습니다. 이를 통해 LLM은 유추 생성에, 인간은 유추 평가에 각각 강점을 보이는 생산적인 협업 모델을 제시합니다.

related iamge

최근 흥미로운 연구 결과가 발표되었습니다. Phanish Puranam, Prothit Sen, Maciej Workiewicz 세 연구자는 GPT-4를 포함한 대규모 언어 모델(LLM)이 전략적 의사결정 맥락에서 인간의 유추 추론 능력에 어떻게 비교되는지 실험적으로 조사했습니다.

연구진은 독창적인 실험 설계를 통해 소스와 대상의 매칭을 중심으로 실험을 진행했습니다. 놀랍게도, GPT-4는 모든 가능한 유추를 검색하여 높은 재현율을 달성했습니다. 하지만 정확도는 낮았습니다. GPT-4는 표면적인 유사성에 기반하여 종종 잘못된 유추를 적용하는 경향을 보였습니다.

반면 인간 참가자들은 정확도는 높았지만 재현율은 낮았습니다. 즉, 인간은 적은 수의 유추만 선택했지만, 선택된 유추들은 더욱 강력한 인과적 정렬을 보였습니다. 이러한 결과는 유추 추론의 평가 단계, 즉 유추의 적절성을 판단하는 단계가 단순한 검색을 넘어 정확한 인과 관계 매핑을 필요로 함을 시사합니다. 단순히 유사한 사례를 찾는 것 이상으로, 그 사례들이 현재 상황에 얼마나 적절하게 적용될 수 있는지, 즉 인과적 관계를 정확히 이해하는 것이 중요하다는 것입니다.

흥미로운 점은 GPT-4와 같은 LLM이 후보 유추를 생성하는 데는 능숙하지만, 인간은 여전히 도메인 간의 심층적인 구조적 유사성을 인식하는 데 비교 우위를 가지고 있다는 점입니다. 오류 분석 결과, AI의 오류는 표면적인 매칭에서 비롯된 반면, 인간의 오류는 인과 구조에 대한 잘못된 해석에서 기인하는 것으로 나타났습니다.

결론적으로, 이 연구는 AI 지원 조직 의사결정에서 생산적인 노동 분담을 제시합니다. LLM은 광범위한 유추를 생성하는 역할을 하고, 인간은 전략적 문제에 가장 적절한 유추를 적용하는 중요한 평가자 역할을 수행할 수 있습니다. GPT-4와 같은 LLM은 인간의 창의적인 사고와 판단력을 보완하는 도구로서, 더욱 효율적이고 효과적인 의사결정을 지원할 수 있을 것입니다. 하지만, AI의 한계를 인지하고 인간의 역할을 간과해서는 안 됩니다. AI와 인간의 협력을 통해 더욱 발전된 전략적 의사결정 시스템을 구축할 수 있을 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4

Published:  (Updated: )

Author: Phanish Puranam, Prothit Sen, Maciej Workiewicz

http://arxiv.org/abs/2505.00603v1