SAGE: 감정을 지닌 에이전트가 평가하는 AI의 사회적 지능


장방 등 연구진이 개발한 SAGE 프레임워크는 감정을 지닌 에이전트를 통해 LLM의 고차원 사회적 인지 능력을 평가하는 새로운 방법을 제시합니다. 100개의 대화 시나리오 실험과 18개 모델에 대한 Sentient Leaderboard를 통해 기존 리더보드에서는 드러나지 않았던 LLM 간 성능 차이를 명확하게 보여주며, AI의 사회적 지능 발전에 중요한 기여를 합니다.

related iamge

AI, 인간의 마음을 얼마나 이해할까요? SAGE가 답을 제시합니다.

최근 급속도로 발전하는 대규모 언어 모델(LLM)은 놀라운 능력을 보여주지만, 단순히 텍스트를 처리하는 것을 넘어 인간의 감정과 사회적 상호작용을 얼마나 잘 이해하는지는 여전히 미지의 영역입니다. 장방 등 연구진이 개발한 Sentient Agent as a Judge (SAGE) 프레임워크는 이러한 문제에 대한 새로운 해답을 제시합니다.

SAGE는 '감정을 지닌 에이전트' 라는 독창적인 아이디어를 활용합니다. 이 에이전트는 인간처럼 감정 변화와 내면의 생각을 가진 존재로 시뮬레이션되어, LLM과의 대화에서 더욱 현실적인 평가를 가능하게 합니다. 대화가 진행되는 동안 에이전트는 자신의 감정 변화, 느낌, 그리고 어떻게 답변해야 하는지를 스스로 판단하며, 이를 통해 수치화된 감정 궤적과 해석 가능한 내면의 생각을 만들어냅니다.

100개의 지원형 대화 시나리오를 통해 진행된 실험 결과는 고무적입니다. SAGE의 최종 감정 점수는 Barrett-Lennard Relationship Inventory (BLRI) 평가와 발화 수준의 공감 지표와 높은 상관관계를 보였습니다. 이는 SAGE가 심리적으로 타당한 평가 도구임을 입증하는 것입니다.

더 나아가, 연구진은 18개의 상용 및 오픈소스 모델을 대상으로 Sentient Leaderboard를 공개했습니다. 놀랍게도, GPT-4o-Latest, Gemini2.5-Pro와 같은 최첨단 시스템과 이전 기준 모델 간에는 최대 4배에 달하는 성능 차이가 발견되었습니다. 이는 Arena와 같은 기존 리더보드에서는 확인되지 않았던 중요한 차이점입니다.

결론적으로 SAGE는 LLM의 진정한 공감 능력과 사회적 적응성을 측정하는 원칙적이고, 확장 가능하며, 해석 가능한 도구를 제공합니다. AI의 사회적 지능 발전을 추적하고, 더욱 인간 친화적인 AI 개발을 위한 중요한 이정표를 제시하는 셈입니다. 앞으로 SAGE를 통해 AI의 사회적 지능 발전을 지켜보는 것이 기대됩니다. 이는 단순한 기술 발전을 넘어, AI와 인간의 공존을 위한 중요한 과제를 해결하는 데 기여할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

Published:  (Updated: )

Author: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

http://arxiv.org/abs/2505.02847v2