이미지로 사고하는 AI: Visual-ARFT로 진화하는 대규모 시각 언어 모델


본 기사는 중국 연구진이 개발한 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) 기술을 소개합니다. Visual-ARFT는 대규모 시각 언어 모델(LVLMs)의 에이전트 능력을 향상시켜 웹 검색 및 이미지 처리 코드 작성 능력을 부여합니다. 새로운 벤치마크 MAT를 통해 평가한 결과, Visual-ARFT는 기존 모델들을 능가하는 성능을 보였으며, 멀티모달 에이전트 기술 발전에 중요한 의미를 지닌다고 평가됩니다.

related iamge

이미지로 사고하는 AI의 혁신: Visual-ARFT 등장

최근 급속한 발전을 거듭하는 대규모 언어 모델(LLM)의 핵심 트렌드 중 하나는 바로 외부 도구 활용 능력입니다. OpenAI의 o3처럼 웹 브라우저를 이용해 정보를 검색하고, 이미지 조작을 위한 코드를 작성 및 실행하는 등, 마치 사람처럼 '사고'하는 능력이 주목받고 있습니다.

하지만 오픈소스 연구 분야에서는 언어 기반 에이전트 기능(함수 호출, 도구 통합 등)의 발전은 상당하지만, 이미지를 활용한 진정한 의미의 멀티모달 에이전트 기능과 이를 평가할 벤치마크 개발은 아직 미흡한 상황입니다.

류지유 등 중국 연구진이 발표한 논문 "Visual Agentic Reinforcement Fine-Tuning"은 이러한 한계를 극복하기 위한 획기적인 시도입니다. 이들은 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) 라는 새로운 훈련 방법을 제시하여 대규모 시각 언어 모델(LVLMs)의 유연하고 적응적인 추론 능력을 향상시켰습니다.

Visual-ARFT: 이미지로 생각하는 능력의 핵심

Visual-ARFT를 통해 오픈소스 LVLMs는 웹사이트를 검색하여 실시간 정보를 업데이트하고, 자르기, 회전 등 다양한 이미지 처리 기술을 사용하는 코드를 작성하여 입력 이미지를 분석하고 조작할 수 있게 되었습니다. 이는 단순한 정보 검색을 넘어, 이미지를 이해하고 활용하는 '진정한' 시각적 사고 능력을 의미합니다.

연구진은 LVLMs의 에이전트 검색 및 코딩 능력을 평가하기 위해 MAT(Multi-modal Agentic Tool Bench) 라는 새로운 벤치마크도 함께 공개했습니다. MAT는 MAT-Search(검색)와 MAT-Coding(코딩) 두 가지 설정으로 구성되어 있습니다.

놀라운 성과: 기존 모델들을 압도하다

실험 결과, Visual-ARFT는 MAT-Coding에서 기준 모델 대비 F1 점수 18.6%, EM 점수 13.0% 향상을 기록했으며, MAT-Search에서도 각각 10.3%, 8.7% 향상을 보였습니다. 놀랍게도, GPT-4o를 능가하는 성능을 달성했습니다. 뿐만 아니라, 2Wiki와 HotpotQA와 같은 기존 멀티홉 QA 벤치마크에서도 각각 F1 점수 29.3%, EM 점수 25.9% 향상이라는 괄목할 만한 성과를 거두었습니다. 이는 Visual-ARFT의 강력한 일반화 능력을 보여주는 결과입니다.

미래를 향한 전망: 더욱 강력한 멀티모달 에이전트

Visual-ARFT는 강력하고 일반화 가능한 멀티모달 에이전트를 구축하는 유망한 방법임을 제시합니다. 이 연구는 AI의 시각적 사고 능력 발전에 중요한 이정표를 세웠으며, 앞으로 더욱 발전된 멀티모달 에이전트 기술의 등장을 예고하고 있습니다. 이미지를 통해 세상을 이해하고, 문제를 해결하는 AI의 시대가 눈앞에 다가왔습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Visual Agentic Reinforcement Fine-Tuning

Published:  (Updated: )

Author: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

http://arxiv.org/abs/2505.14246v1