감정을 가진 판사: 대규모 언어 모델의 고차원 사회적 인지 능력 평가


본 기사는 대규모 언어 모델(LLM)의 고차원 사회적 인지 능력을 평가하는 새로운 프레임워크인 SAGE에 대해 소개합니다. SAGE는 감정 변화를 시뮬레이션하는 Sentient Agent를 통해 LLM의 사회적 상호작용 능력을 평가하며, 실험 결과 기존 평가 방식에서는 드러나지 않았던 최첨단 모델과 기존 모델 간의 성능 차이를 밝혀냈습니다.

related iamge

감정을 가진 판사: 대규모 언어 모델의 고차원 사회적 인지 능력 평가

인간과의 자연스러운 대화, 진정한 공감 능력... 최근 급속도로 발전하는 대규모 언어 모델(LLM)이 우리에게 선사하는 놀라운 가능성입니다. 하지만 모델이 단순히 텍스트를 처리하는 것을 넘어, 인간의 감정과 사회적 상호작용을 얼마나 잘 이해하는지는 여전히 풀어야 할 과제였습니다.

중국과학원과 여러 연구 기관의 연구진들은 이러한 문제에 대한 해결책으로 SAGE(Sentient Agent as a Judge) 라는 획기적인 평가 프레임워크를 개발했습니다. SAGE는 '감정을 가진 판사' 와 같습니다. 단순히 텍스트의 정확성만 평가하는 것이 아니라, LLM이 인간과의 대화 속에서 감정 변화와 내적 사고를 얼마나 잘 이해하고 반영하는지를 평가합니다.

SAGE는 어떻게 작동할까요?

SAGE는 인간과 같은 감정 변화와 내적 사고를 시뮬레이션하는 Sentient Agent를 활용합니다. Sentient Agent는 LLM과 대화를 나누며, 매 순간 자신의 감정 변화, 느낌, 그리고 다음 응답을 어떻게 해야 할지에 대해 추론합니다. 이 과정에서 수치화된 감정 변화 궤적과 해석 가능한 내적 사고가 생성됩니다. 이는 LLM의 사회적 인지 능력을 훨씬 더 현실적이고 세밀하게 평가할 수 있게 해줍니다.

실험 결과는 어땠을까요?

100개의 지지적 대화 시나리오를 통해 진행된 실험에서 SAGE의 Sentient 감정 점수는 BLRI(Barrett-Lennard Relationship Inventory) 평가와 발화 수준의 공감 지표와 높은 상관관계를 보였습니다. 이는 SAGE가 심리적으로 타당한 평가 도구임을 입증하는 것입니다. 더욱 놀라운 것은, SAGE를 통해 GPT-4o-Latest, Gemini2.5-Pro 와 같은 최첨단 모델과 기존 모델 간의 성능 차이가 4배까지 벌어진다는 사실이 드러났다는 점입니다. 이는 기존의 리더보드에서는 나타나지 않았던 차이입니다.

SAGE의 의의는 무엇일까요?

SAGE는 원칙적이고, 확장 가능하며, 해석 가능한 도구로서, 진정으로 공감하고 사회적으로 능숙한 언어 에이전트를 향한 발전을 추적하는 데 중요한 역할을 할 것입니다. 단순히 기술적 성능 측정을 넘어, LLM의 사회적 지능 발달을 가늠하는 중요한 척도로 자리매김할 것으로 기대됩니다. 앞으로 SAGE를 통해 더욱 진보된, 인간과 진정으로 소통할 수 있는 LLM의 개발이 가속화될 것으로 예상됩니다.

연구진: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

Published:  (Updated: )

Author: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

http://arxiv.org/abs/2505.02847v1