이미지만으로 생각한다면? - 시각적 계획(Visual Planning)의 혁신
본 논문은 텍스트 대신 이미지를 사용하여 추론하는 새로운 패러다임 'Visual Planning'을 제시합니다. 강화학습 기반의 VPRL 프레임워크와 GRPO를 활용하여 다양한 시각적 탐색 과제에서 기존 텍스트 기반 추론 방식보다 우수한 성능을 입증하였으며, 이는 인간의 시각적 사고 방식을 모방하는 AI 기술의 혁신적인 발전을 의미합니다.

최근 대규모 언어 모델(LLM)과 다중 모달 확장 모델(MLLM)의 발전으로 다양한 작업에서 기계 추론 능력이 크게 향상되었습니다. 하지만 이러한 모델들은 시각 정보가 존재하더라도 주로 텍스트를 추론 표현 및 구조화의 매개체로 사용합니다. 이 논문(Visual Planning: Let's Think Only with Images) 에서는 특히 공간 및 기하학적 정보가 포함된 작업에서는 언어가 항상 가장 자연스럽거나 효과적인 추론 방식이 아닐 수 있다고 주장합니다.
이에 연구팀(Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić)은 텍스트와 무관하게 순전히 시각적 표현을 통해 계획을 수립하는 새로운 패러다임인 **'Visual Planning'**을 제시합니다. 이 패러다임에서 계획은 단계별 추론을 시각 영역에 인코딩하는 일련의 이미지를 통해 실행되는데, 마치 인간이 미래 행동을 스케치하거나 시각화하는 방식과 유사합니다.
연구팀은 강화 학습 프레임워크인 **'Visual Planning via Reinforcement Learning (VPRL)'**을 도입했습니다. 여기에는 사후 학습 대규모 비전 모델을 위한 GRPO(Generative Replay with Policy Optimization)가 활용되어 계획 성능이 크게 향상되었습니다. 대표적인 시각적 탐색 과제인 FrozenLake, Maze, MiniBehavior에서 VPRL은 텍스트 전용 공간에서 추론을 수행하는 다른 모든 계획 변형보다 뛰어난 성능을 보였습니다.
결과적으로, Visual Planning은 직관적인 이미지 기반 추론을 통해 이점을 얻는 작업에 새로운 가능성을 열어주는 실행 가능하고 유망한 언어 기반 추론의 대안으로 자리매김했습니다. 이는 단순히 기술적 진보를 넘어, 인간의 사고 방식과 더욱 유사한, 새로운 인공지능 시대를 예고하는 획기적인 연구 결과입니다. 앞으로 시각적 정보를 효율적으로 처리하고 활용하는 AI 기술의 발전에 크게 기여할 것으로 예상됩니다.
핵심: 텍스트 대신 이미지만으로 추론하는 Visual Planning, 강화학습(VPRL)과 GRPO 활용, 시각적 탐색 과제에서 우수한 성능 입증. 이는 인간의 직관적인 사고 방식을 모방하는 새로운 AI 패러다임의 등장을 의미합니다.
Reference
[arxiv] Visual Planning: Let's Think Only with Images
Published: (Updated: )
Author: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
http://arxiv.org/abs/2505.11409v1