EvolveNav: LLM 기반 시각 언어 탐색의 자기 개선형 추론 프레임워크
EvolveNav는 LLM 기반 시각 언어 탐색(VLN)의 성능과 설명 가능성을 향상시키는 자기 개선형 추론 프레임워크입니다. Formalized CoT Fine-Tuning과 Self-Reflective Post-Training을 통해 모델의 추론 능력을 향상시키고, 기존 방식의 한계를 극복합니다. 실험 결과는 EvolveNav의 우수성을 증명하며, 실제 응용 분야에 대한 기대감을 높입니다.

LLM 기반 시각 언어 탐색의 혁신: EvolveNav
자연어 명령을 따라 탐색하는 VLN(Vision-Language Navigation) 에이전트 구축은 로봇-인간 상호 작용 분야의 오랜 목표였습니다. 최근 연구들은 오픈소스 대규모 언어 모델(LLM)을 훈련하여 탐색 성능을 개선하고, 동시에 LLM 훈련 말뭉치와 VLN 작업 간의 도메인 격차를 완화할 수 있는 가능성을 보여주었습니다. 그러나 이러한 접근 방식은 주로 직접적인 입력-출력 매핑 패러다임을 채택하여 매핑 학습이 어렵고 탐색 결정이 설명 불가능하다는 한계가 있습니다.
Bingqian Lin 등 11명의 연구원은 이러한 문제를 해결하기 위해 EvolveNav 라는 새로운 자기 개선형 추론 프레임워크를 제시했습니다. EvolveNav는 다음 두 단계로 구성됩니다.
- Formalized CoT Supervised Fine-Tuning: 모델의 탐색 추론 능력을 활성화하고 추론 속도를 높이기 위해 공식화된 CoT(Chain-of-Thought) 라벨로 모델을 훈련합니다. CoT는 모델의 추론 과정을 단계적으로 보여주는 기술입니다.
- Self-Reflective Post-Training: 모델의 자체 추론 출력을 자체 강화된 CoT 라벨로 반복적으로 훈련하여 지도 다양성을 높입니다. 잘못된 추론 패턴과의 대조를 통해 정확한 추론 패턴 학습을 유도하는 자기 반성 보조 작업도 도입되었습니다.
EvolveNav의 핵심은 모델 스스로의 추론 결과를 학습에 활용하여 지속적으로 개선해나가는 점입니다. 이를 통해 기존 방식의 한계였던 도메인 격차 문제와 설명 불가능한 결정 문제를 효과적으로 해결할 수 있습니다. 실제 VLN 벤치마크에서 EvolveNav는 기존의 LLM 기반 VLN 접근 방식보다 우수한 성능을 보였습니다. 코드는 GitHub 에서 확인할 수 있습니다.
EvolveNav는 LLM의 추론 능력을 향상시키고, 설명 가능한 AI 시스템 개발에 중요한 진전을 이룬 연구로 평가받고 있습니다. 향후 로봇-인간 상호 작용, 자율 주행 등 다양한 분야에 긍정적인 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation
Published: (Updated: )
Author: Bingqian Lin, Yunshuang Nie, Khun Loun Zai, Ziming Wei, Mingfei Han, Rongtao Xu, Minzhe Niu, Jianhua Han, Liang Lin, Cewu Lu, Xiaodan Liang
http://arxiv.org/abs/2506.01551v1