InfantAgent-Next: 컴퓨터와의 상호작용을 혁신하는 다중 모달리티 범용 에이전트

본 기사는 다중 모달리티를 처리하는 범용 AI 에이전트 InfantAgent-Next의 개발과 그 성능, 그리고 오픈소스 공개에 대한 내용을 다룹니다. 기존의 AI 에이전트보다 뛰어난 범용성과 성능을 보이며, 다양한 벤치마크 테스트에서 우수한 결과를 보였습니다. 오픈소스 공개를 통해 AI 기술 발전에 크게 기여할 것으로 기대됩니다.

컴퓨터와의 상호작용을 혁신하다: InfantAgent-Next 등장

최근, 컴퓨터와의 상호작용 방식을 근본적으로 바꿀 잠재력을 가진 새로운 AI 에이전트가 등장했습니다. 바로 Bin Lei 등이 이끄는 연구팀이 개발한 InfantAgent-Next입니다. 이 에이전트는 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티(Multimodal) 를 처리할 수 있는 범용 에이전트(Generalist Agent) 로, 기존의 단일 모델 기반 접근 방식의 한계를 뛰어넘는 혁신적인 기술을 선보였습니다.

기존의 AI 에이전트들은 복잡한 워크플로우를 구축하거나 모듈성이 부족한 경우가 많았습니다. 하지만 InfantAgent-Next는 고도로 모듈화된 아키텍처를 통해 도구 기반 에이전트와 순수 비전 에이전트를 통합하여, 서로 다른 모델들이 단계별로 협력하여 작업을 해결할 수 있도록 설계되었습니다. 이를 통해 복잡한 문제 해결이 가능해지고, 그 범용성이 크게 향상되었습니다.

놀라운 성능: 벤치마크에서의 우수한 결과

InfantAgent-Next의 성능은 다양한 벤치마크 테스트를 통해 검증되었습니다. OSWorld 와 같은 실제 환경 기반의 순수 비전 벤치마크뿐만 아니라, GAIA 와 SWE-Bench 와 같이 도구 사용을 필요로 하는 더욱 일반적이고 복잡한 벤치마크에서도 뛰어난 성능을 보였습니다. 특히 OSWorld에서는 Claude-Computer-Use를 능가하는 **7.27%**의 정확도를 달성하여 그 우수성을 입증했습니다.

오픈소스 공개: AI 기술의 발전을 위한 협력

더욱 놀라운 것은 InfantAgent-Next의 오픈소스 공개입니다. https://github.com/bin123apple/InfantAgent 에서 코드와 평가 스크립트를 확인할 수 있습니다. 이를 통해 전 세계 연구자와 개발자들은 InfantAgent-Next를 기반으로 더욱 발전된 AI 에이전트를 개발할 수 있게 되었고, AI 기술의 발전에 크게 기여할 것으로 예상됩니다.

InfantAgent-Next의 등장은 단순히 새로운 AI 에이전트의 개발을 넘어, 컴퓨터와의 상호작용 방식에 대한 새로운 패러다임을 제시합니다. 앞으로 InfantAgent-Next가 어떻게 발전하고, 어떤 혁신을 가져올지 기대됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

Published: (Updated: )

Author: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding

http://arxiv.org/abs/2505.10887v1