다중 에이전트 세계 모델링의 혁신: 확산 모델 기반의 새로운 패러다임


양 장 등 연구팀이 개발한 DIMA는 확산 모델을 활용한 새로운 다중 에이전트 세계 모델로, 기존 모델보다 뛰어난 성능과 샘플 효율성을 보이며 MARL 분야의 발전에 기여합니다.

related iamge

최근 다중 에이전트 강화 학습(MARL) 분야에서 세계 모델(World Model)이 주목받고 있습니다. 정책 학습의 샘플 효율성을 높이는 데 효과적이기 때문이죠. 하지만 MARL 환경을 정확하게 모델링하는 것은 지수적으로 증가하는 공동 행동 공간과 불확실한 다중 에이전트 시스템의 역동성 때문에 매우 어렵습니다.

양 장 박사를 비롯한 연구팀은 이러한 문제를 해결하기 위해, 기존의 전체 상태-행동 전이 역동성을 공동으로 모델링하는 방식에서 벗어나, 각 시간 단계에서 상태 공간에만 집중하는 순차적 에이전트 모델링으로 접근 방식을 전환했습니다. 이를 통해 모델은 불확실성을 점진적으로 해소하면서 에이전트 간의 구조적 의존성을 포착하여 에이전트가 상태에 미치는 영향을 더 정확하게 나타낼 수 있습니다.

흥미롭게도, 이러한 다중 에이전트 시스템에서 에이전트 행동의 순차적 공개는 확산 모델(Diffusion Model) 의 역과정과 일치합니다. 확산 모델은 자기 회귀 또는 잠재 변수 모델에 비해 표현력과 훈련 안정성이 뛰어난 강력한 생성 모델입니다.

연구팀은 이러한 통찰력을 활용하여 확산 모델을 기반으로 유연하고 강력한 MARL용 세계 모델인 DIMA(Diffusion-Inspired Multi-Agent world model) 를 개발했습니다. DIMA는 MAMuJoCo와 Bi-DexHands를 포함한 여러 다중 에이전트 제어 벤치마크에서 최첨단 성능을 달성했으며, 기존 세계 모델보다 최종 수익률과 샘플 효율성 면에서 훨씬 뛰어난 결과를 보였습니다.

DIMA는 다중 에이전트 세계 모델을 구성하는 새로운 패러다임을 제시하며 MARL 연구의 발전에 크게 기여할 것으로 기대됩니다. 이 연구는 다중 에이전트 시스템의 복잡성을 효과적으로 해결하고, 강화 학습의 성능을 향상시키는 새로운 가능성을 열었습니다. 앞으로 DIMA가 다양한 MARL 응용 분야에 적용되어 더욱 놀라운 결과를 가져올 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective

Published:  (Updated: )

Author: Yang Zhang, Xinran Li, Jianing Ye, Delin Qu, Shuang Qiu, Chongjie Zhang, Xiu Li, Chenjia Bai

http://arxiv.org/abs/2505.20922v1