딥러닝으로 사회적 행동 제어: AI 에이전트의 공정성과 친사회성 연구
마지마(Ji Ma) 연구팀의 연구는 LLM 기반 AI 에이전트의 사회적 행동을 조절하고 이해하기 위한 새로운 방법을 제시합니다. 독재자 게임을 활용하여 LLM의 내부 표상을 조작함으로써, 공정성과 친사회성을 개선할 수 있는 가능성을 확인했습니다. 이는 AI 정렬, 편향 제거, 사회적 시뮬레이션 개선에 중요한 시사점을 제공합니다.

최근 대규모 언어 모델(LLM)이 사회과학 및 응용 분야에서 인간과 유사한 의사결정 에이전트로 활용되고 있습니다. 이러한 LLM 에이전트는 일반적으로 인간과 같은 특성을 부여받고 현실적인 상황에 배치됩니다. 하지만 이러한 특성과 상황이 LLM의 행동에 어떻게 영향을 미치는지는 아직까지 충분히 연구되지 않았습니다.
마지마(Ji Ma) 연구팀의 최근 연구는 이러한 난제에 대한 해결책을 제시합니다. 연구팀은 독재자 게임(fairness와 prosocial behavior에 대한 고전적인 행동 실험)을 통해 LLM의 내부 표상을 조사, 정량화, 수정하는 방법을 제안하고 실험적으로 검증했습니다. 핵심은 LLM의 내부 상태에서 '변수 변화 벡터'(예: '남성'에서 '여성'으로)를 추출하는 것입니다. 모델 추론 중 이러한 벡터를 조작함으로써, 변수가 모델의 의사결정에 미치는 영향을 상당히 바꿀 수 있음을 확인했습니다.
이는 단순히 LLM의 행동을 관찰하는 것을 넘어, 그 내부 작동 방식을 이해하고 조절할 수 있는 획기적인 방법입니다. 연구팀은 이 접근 방식을 통해 트랜스포머 기반 모델 내에서 사회적 개념이 어떻게 인코딩되고 설계될 수 있는지에 대한 원칙적인 이해를 제공합니다. 이는 AI 정렬(alignment), 편향 제거(debiasing), 그리고 학술 및 상업적 응용 분야에서 사회적 시뮬레이션을 위한 AI 에이전트 설계에 중요한 시사점을 제공합니다.
연구의 의의:
- LLM 기반 에이전트의 행동 예측 및 제어 가능성 확대
- AI 에이전트의 공정성 및 친사회성 향상을 위한 새로운 전략 제시
- 사회적 시뮬레이션 및 관련 응용 분야의 발전에 기여
이 연구는 단순히 기술적 발전을 넘어, AI가 사회에 미치는 영향을 윤리적으로 고려하고, 보다 공정하고 친사회적인 AI 시스템을 구축하는 데 중요한 단계로 평가받고 있습니다. 앞으로 이러한 연구가 더욱 발전하여, 인간과 AI가 공존하는 더 나은 미래를 만드는 데 기여할 것으로 기대됩니다.
Reference
[arxiv] Steering Prosocial AI Agents: Computational Basis of LLM's Decision Making in Social Simulation
Published: (Updated: )
Author: Ji Ma
http://arxiv.org/abs/2504.11671v1