마그마(Magma): 다중 모달 AI 에이전트를 위한 획기적인 기반 모델 등장!
마이크로소프트 연구팀이 개발한 Magma 모델은 시각-공간적 지능을 갖춘 다중 모달 AI 에이전트 기반 모델로, UI 탐색 및 로봇 조작 등 다양한 작업에서 뛰어난 성능을 보여줍니다. SoM과 ToM 라벨링 기법을 통해 학습된 공간-시간적 지능이 핵심이며, 모델과 코드 공개를 통해 재현성을 확보했습니다.

마그마(Magma): 시각-공간적 지능으로 무장한 다중 모달 AI 에이전트의 혁신
최근 마이크로소프트 연구팀(Jianwei Yang 외)이 발표한 마그마(Magma) 는 AI 에이전트 분야에 새로운 지평을 열었습니다. 단순한 시각-언어 이해를 넘어, 디지털 및 물리적 세계 모두에서 작업을 수행할 수 있는 능력을 갖춘 다중 모달 기반 모델이기 때문입니다.
마그마는 이미지와 비디오뿐 아니라 로봇 데이터까지 포함한 방대한 데이터셋으로 사전 훈련되었습니다. 여기서 핵심은 Set-of-Mark(SoM) 과 Trace-of-Mark(ToM) 이라는 독창적인 라벨링 기법입니다. SoM은 이미지 내에서 클릭 가능한 버튼과 같은 행동 가능한 시각적 객체에 대한 정보를 제공하고, ToM은 비디오에서 사람 손이나 로봇 팔의 움직임과 같은 객체 움직임을 추적하여 라벨링합니다.
이러한 혁신적인 접근 방식 덕분에 마그마는 공간-시간적 지능을 효과적으로 학습하여 UI 탐색 및 로봇 조작과 같은 다양한 작업에서 뛰어난 성능을 보여줍니다. 실제로 기존의 특정 작업에 맞춰 개발된 모델들을 능가하는 성능을 기록했으며, 대규모 다중 모달 모델들과 비교해도 손색없는 결과를 얻었습니다.
특히 주목할 점은 마그마 모델과 코드가 공개되어(https://microsoft.github.io/Magma) 누구든지 연구 결과를 재현하고 활용할 수 있다는 것입니다. 이는 연구의 투명성을 높이고, AI 분야의 발전에 크게 기여할 것으로 기대됩니다.
마그마는 단순한 기술적 진보를 넘어, AI 에이전트가 실제 세계의 다양한 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여주는 훌륭한 사례입니다. 앞으로 마그마를 기반으로 더욱 발전된 AI 에이전트들이 등장하여 우리 삶을 더욱 편리하고 풍요롭게 만들어 줄 것으로 예상됩니다. 🎉
Reference
[arxiv] Magma: A Foundation Model for Multimodal AI Agents
Published: (Updated: )
Author: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao
http://arxiv.org/abs/2502.13130v1