혁신적인 강화학습: 소규모 언어 모델에서 마음의 이론(ToM) 능력 개방


소규모 LLM에 강화학습(RL)을 적용하여 마음의 이론(ToM) 능력을 향상시킨 연구 결과. 7B 파라미터 모델이 Hi-ToM 벤치마크에서 84.50% 정확도를 달성하며, RL의 사회적 인지 추론 향상 가능성을 제시.

related iamge

최근 대규모 언어 모델(LLM)의 사후 훈련 단계에서 규칙 기반 강화학습(RL)을 적용하여 수학 및 논리적 추론과 같은 구조적 추론 작업 능력을 크게 향상시켰습니다. 하지만 사회적 추론, 특히 타인의 정신 상태를 추론하는 능력인 마음의 이론(ToM)에 대한 RL의 효과는 거의 알려지지 않았습니다.

루 이롱(Yi-Long Lu) 박사를 비롯한 연구팀은 흥미로운 연구 결과를 발표했습니다. 연구팀은 소규모 LLM(0.5B~7B 파라미터)에서도 RL 방법을 통해 ToM 추론 능력을 효과적으로 향상시킬 수 있음을 증명했습니다. 다양한 시나리오에 걸쳐 3200개의 질문으로 구성된 소규모 데이터 세트를 사용하여, RL로 훈련된 7B 모델은 Hi-ToM 벤치마크에서 84.50%의 정확도를 달성했습니다. 이는 GPT-4o 및 DeepSeek-v3과 같은 파라미터 수가 훨씬 많은 모델을 능가하는 놀라운 결과입니다.

3B 파라미터 이하의 소규모 모델은 추론 붕괴 문제를 겪는 반면, 7B 파라미터의 대규모 모델은 일관된 신념 추적을 통해 안정적인 성능을 유지했습니다. 더욱이, RL 기반 모델은 고차원적이고 분포 외 ToM 문제, 새로운 텍스트 표현, 이전에 보지 못한 데이터 세트에 대해 강력한 일반화 능력을 보여주었습니다.

이러한 연구 결과는 RL이 사회적 인지 추론을 향상시키고, 구조화된 문제 해결과 미묘한 사회적 추론 사이의 격차를 해소하는 데 잠재력이 있음을 강조합니다. 이는 AI가 단순한 정보 처리를 넘어, 인간과 같은 복잡한 사회적 상호 작용을 이해하고 처리할 수 있는 가능성을 보여주는 중요한 발견입니다. 향후 연구를 통해 RL 기반 ToM 모델의 성능 향상 및 다양한 응용 분야에 대한 연구가 더욱 활발해질 것으로 예상됩니다.


주요 연구 내용:

  • 소규모 LLM(0.5B~7B 파라미터)에서 강화학습(RL)을 적용하여 ToM 능력 향상
  • 7B 파라미터 모델, Hi-ToM 벤치마크에서 84.50% 정확도 달성 (GPT-4o, DeepSeek-v3 능가)
  • 고차원, 분포 외 ToM 문제에 대한 강력한 일반화 능력 확인
  • RL의 사회적 인지 추론 향상 및 사회적 상호작용 이해 가능성 제시

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs

Published:  (Updated: )

Author: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang

http://arxiv.org/abs/2504.01698v1