MindVote: 소셜 미디어 여론조사에서 LLM의 인간 의사결정 예측 능력 평가


마오 슈타오와 타오 엑스라 쉬안루가 개발한 MindVote 벤치마크는 소셜 미디어 여론조사를 통해 LLM의 인간 의사결정 예측 능력을 평가하는 새로운 기준을 제시합니다. 18개 LLM 평가 결과, 최고 성능 모델은 기존 대비 80% 향상된 성능을 보였으며, 플랫폼, 언어, 도메인에 따른 성능 차이와 사회적 편향 분석 결과도 제시되었습니다. MindVote는 LLM의 사회적 지능 평가 및 향상에 중요한 역할을 할 것으로 기대됩니다.

related iamge

소셜 미디어 시대, 인공지능은 인간의 마음을 얼마나 읽을 수 있을까?

최근 급격한 발전을 거듭하는 거대언어모델(LLM)의 능력을 제대로 평가할 새로운 척도가 필요해졌습니다. 특히 역동적인 사회적 맥락에서 인간의 의사결정을 얼마나 정확하게 예측할 수 있는지 평가하는 것은 매우 중요한 과제입니다. 마오 슈타오와 타오 엑스라 쉬안루가 이끄는 연구팀은 이러한 필요성에 따라 MindVote라는 획기적인 벤치마크를 개발했습니다.

MindVote: 가상 응답자로서의 LLM 평가

MindVote는 소셜 미디어 여론조사에서 LLM을 '가상 응답자'로 평가하는 최초의 벤치마크입니다. 웨이보, 레딧, Fizz 등 세 개의 플랫폼에서 수집한 276개의 여론조사(1,142개의 데이터 항목)를 바탕으로 중국어와 영어를 모두 포함하는 이중 언어 콘텐츠를 제공하며, 5개의 도메인을 다룹니다. 18개의 LLM을 평가한 결과, 최고 성능 모델은 기존 기준 대비 무려 80% 향상된 0.74점을 기록했습니다. 이는 LLM이 사회적 맥락에서 인간의 의사결정을 예측하는 능력이 상당히 발전했음을 시사합니다.

사회적 편향과 LLM의 세계 모델

연구팀은 플랫폼, 언어, 도메인에 따라 LLM의 성능에 상당한 차이가 있음을 발견했습니다. 또한, 사회적 편향 차원에서 LLM의 세계 모델 편향을 인간의 선호도와 비교 분석하여, LLM의 성능을 최적화하기 위한 전략을 제시했습니다. 흥미롭게도, 온도 제어를 통해 인간 사고의 다양성과 여론 변화를 반영할 수 있는 가능성도 확인했습니다.

LLM-as-a-Judge: 사회적 맥락에서의 추론 평가

MindVote는 LLM을 '판사'로 활용하여 사회적 맥락에서의 추론 능력을 평가하는 방법론도 제시합니다. 이는 LLM의 사회적 지능을 보다 포괄적으로 이해하는 데 도움을 줄 것으로 기대됩니다.

결론: 확장 가능한 사회적 지능 평가 프레임워크

MindVote는 LLM의 사회적 지능을 평가하기 위한 확장 가능한 프레임워크를 제공하며, 행동적 의사결정에 대한 이해를 높이는 데 중요한 시사점을 제공합니다. 곧 공개될 코드와 데이터는 LLM 연구에 새로운 가능성을 열어줄 것으로 예상됩니다. MindVote는 단순한 벤치마크를 넘어, 인공지능과 사회의 관계를 이해하고, 더욱 발전된 AI 시스템을 구축하는 데 중요한 이정표를 제시할 것입니다. 앞으로 MindVote를 통해 LLM의 사회적 지능이 어떻게 더욱 발전할지, 그리고 그 발전이 우리 사회에 어떤 영향을 미칠지 지켜보는 것은 매우 흥미로운 일이 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MindVote: How LLMs Predict Human Decision-Making in Social Media Polls

Published:  (Updated: )

Author: Xutao Mao, Ezra Xuanru Tao

http://arxiv.org/abs/2505.14422v1