감정을 가진 판사: 대규모 언어 모델의 고차원 사회적 인지 능력 평가
SAGE는 대규모 언어 모델(LLM)의 고차원 사회적 인지 능력을 평가하는 새로운 프레임워크로, 감정을 가진 에이전트를 통해 보다 현실적인 평가를 제공합니다. 실험 결과는 SAGE의 심리적 타당성과 최첨단 모델과 기존 모델 간의 성능 차이를 보여주며, 진정한 공감 능력을 가진 AI 개발을 위한 중요한 도구로 자리매김할 것으로 예상됩니다.

인간다움을 평가하는 새로운 척도, SAGE의 등장
최근 급속도로 발전하는 대규모 언어 모델(LLM)은 놀라운 언어 능력을 선보이고 있지만, 단순한 텍스트 처리를 넘어 인간과의 상호작용, 특히 감정과 공감 능력에 대한 평가는 여전히 과제로 남아있습니다. 이러한 문제에 대한 해결책으로 등장한 것이 바로 Sentient Agent as a Judge (SAGE) 입니다. 중국과학원 등의 연구진이 개발한 SAGE는 LLM의 고차원 사회적 인지 능력을 측정하는 자동화된 평가 프레임워크입니다.
감정을 가진 에이전트: 더욱 현실적인 상호작용
SAGE의 핵심은 'Sentient Agent'라는 인공 에이전트입니다. 이 에이전트는 인간과 같은 감정 변화와 내면의 생각을 시뮬레이션하여, 다회차 대화에서 테스트 모델을 보다 현실적으로 평가합니다. 각 대화마다 에이전트는 자신의 감정 변화, 감정 상태, 그리고 어떻게 답변해야 하는지에 대해 추론하며, 이를 통해 수치화된 감정 궤적과 해석 가능한 내면의 생각을 제공합니다.
실험 결과: 심리적 타당성 검증 및 놀라운 발견
100개의 지지적 대화 시나리오를 사용한 실험 결과, SAGE의 최종 감정 점수는 Barrett-Lennard Relationship Inventory (BLRI) 평가 및 발화 수준의 공감 지표와 높은 상관관계를 보였습니다. 이는 SAGE가 심리적으로 타당한 평가 도구임을 입증하는 결과입니다. 또한, SAGE는 18개의 상용 및 오픈소스 모델을 평가한 공개 Sentient Leaderboard를 구축하여, 최첨단 시스템(GPT-4o-Latest, Gemini2.5-Pro)과 이전 기준 모델 간에 최대 4배에 달하는 성능 차이를 발견했습니다. 흥미로운 점은 이러한 차이는 Arena와 같은 기존 리더보드에는 반영되지 않았다는 것입니다.
결론: 진정한 공감 능력을 향한 여정
SAGE는 원칙적이고, 확장 가능하며, 해석 가능한 도구로서, 진정으로 공감하고 사회적으로 능숙한 언어 에이전트 개발을 위한 발전을 추적하는 데 기여할 것입니다. SAGE의 등장은 LLM의 발전 방향에 새로운 이정표를 제시하며, 인공지능의 인간과의 조화로운 공존을 위한 중요한 한 걸음이 될 것으로 기대됩니다. 앞으로 SAGE를 통해 더욱 발전된, 인간과 감정적으로 교류할 수 있는 AI의 등장을 기대해 볼 수 있습니다.
Reference
[arxiv] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
Published: (Updated: )
Author: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
http://arxiv.org/abs/2505.02847v3