GFlowVLM: 생성적 흐름 네트워크로 시각-언어 모델의 다단계 추론 강화


GFlowVLM은 생성적 흐름 네트워크를 활용하여 시각-언어 모델의 다단계 추론 능력을 향상시킨 새로운 프레임워크입니다. 기존 방법들의 한계를 극복하고, 다양한 솔루션 생성 및 강력한 일반화 능력을 보여주어 복잡한 추론 작업에서 뛰어난 성능을 달성했습니다.

related iamge

시각-언어 모델의 새로운 지평을 열다: GFlowVLM

최근 시각-언어 모델(VLMs)은 특정 작업에 대한 미세 조정을 통해 순차적 의사결정 작업에서 놀라운 발전을 보였습니다. 하지만, 지도 학습 미세 조정(SFT)이나 근위 정책 최적화(PPO)와 같은 강화 학습(RL) 기법과 같은 일반적인 미세 조정 방법들은 한계를 가지고 있습니다. SFT는 독립적이고 동일하게 분포된(IID) 데이터를 가정하며, PPO는 누적 보상을 극대화하는 데 집중하기 때문에, 솔루션의 다양성이 제한되고 다단계 추론 작업에서의 일반화 능력이 저해될 수 있습니다.

강호강, 앤나 사치데바, 피유시 굽타, 배상재, 이권준 연구팀은 이러한 문제를 해결하기 위해 GFlowVLM이라는 새로운 프레임워크를 제시했습니다. GFlowVLM은 생성적 흐름 네트워크(GFlowNets) 를 사용하여 복잡한 추론 작업에 대한 다양한 솔루션을 생성하도록 VLMs를 미세 조정합니다. GFlowVLM은 환경을 비마르코프 의사결정 과정으로 모델링하여 실제 응용 프로그램에 필수적인 장기적인 의존성을 포착할 수 있습니다. 관찰 결과와 작업 설명을 입력으로 받아 사고 과정(CoT) 추론을 유도하고, 이를 통해 행동 선택을 안내합니다. 작업 기반 보상을 사용하여 GFlowNets로 VLM을 미세 조정합니다.

이 접근 방식을 통해 VLMs는 SFT 및 RL을 포함한 기존의 미세 조정 방법보다 뛰어난 성능을 보입니다. 실험 결과는 숫자 카드 게임(NumberLine, BlackJack) 및 임베디드 플래닝 작업(ALFWorld)과 같은 복잡한 작업에서 GFlowVLM의 효과를 보여줍니다. 분포 내 및 분포 외 시나리오 모두에서 향상된 훈련 효율성, 솔루션 다양성 및 강력한 일반화 능력을 보여주었습니다.

GFlowVLM은 단순히 최적의 솔루션 하나만 찾는 데 그치지 않고, 다양한 해결책을 제시하여 문제 해결의 유연성을 높였습니다. 이는 특히 복잡하고 불확실성이 높은 실제 환경에서 매우 중요한 장점입니다. 이 연구는 VLMs의 발전에 새로운 이정표를 제시하며, 앞으로 더욱 복잡하고 다양한 추론 작업에 VLMs를 적용하는 데 중요한 토대를 마련할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks

Published:  (Updated: )

Author: Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee

http://arxiv.org/abs/2503.06514v2