보이는 것에서 보이지 않는 것을 창조하다: 기초 모델을 이용한 관찰-지시 재작성을 통한 시각-언어 탐색 향상


본 논문은 VLN(Vision-Language Navigation) 분야의 데이터 부족 문제를 해결하기 위해 기존 데이터를 재작성하여 새로운 관찰-지시 쌍을 생성하는 RAM(Rewriting-driven AugMentation) 패러다임을 제안합니다. VLMs, LLMs, T2IMs를 활용하여 다양한 관찰 데이터를 합성하고, 혼합-집중 학습 전략과 무작위 관찰 자르기 기법을 통해 데이터 품질을 향상시켜 우수한 성능과 일반화 능력을 달성했습니다.

related iamge

보이는 것에서 보이지 않는 것을 창조하다: VLN의 새로운 지평을 열다

시각-언어 탐색(VLN) 분야는 늘 데이터 부족이라는 난관에 직면해 왔습니다. 이는 에이전트의 일반화 능력을 심각하게 저해하는 요인이죠. 기존 연구들은 시뮬레이터 데이터나 웹에서 수집한 이미지/비디오를 활용해 이 문제를 해결하려 했지만, 시뮬레이터는 다양성이 부족하고, 웹 데이터는 노이즈 제거를 위한 많은 노력이 필요했습니다.

Wei Ziming 박사를 비롯한 연구팀은 이러한 한계를 극복하기 위해 획기적인 RAM(Rewriting-driven AugMentation) 패러다임을 제시했습니다. RAM은 기존의 사람이 주석한 훈련 데이터를 재작성하여 새로운 관찰-지시 쌍을 직접 생성하는 방법입니다. 시뮬레이터나 웹 데이터 없이도, 노력을 최소화하면서 일반화 능력 향상에 기여하는 혁신적인 접근 방식이죠.

객체 강화 관찰 재작성 (Object-Enriched Observation Rewriting):

연구팀은 먼저 VLMs(Vision-Language Models)LLMs(Large Language Models) 를 결합하여 객체가 풍부한 장면 묘사를 재작성했습니다. T2IMs(Text-to-Image Generation Models) 를 이용하여 다양한 객체와 공간 배치를 가진 관찰 데이터를 합성하는 기술을 개발한 것이죠. 마치 마법처럼, 기존 데이터에서 새로운 관찰 데이터를 만들어내는 셈입니다.

관찰 대조 지시 재작성 (Observation-Contrast Instruction Rewriting):

다음으로, LLMs를 이용하여 원본 관찰과 새로운 관찰의 차이를 이유추론하여 관찰에 맞춰 재작성된 지시문을 생성했습니다. 이는 에이전트가 다양한 상황에 적응할 수 있도록 돕는 핵심 기술입니다. 단순히 데이터를 늘리는 것이 아니라, 질적으로 향상된 데이터를 생성하는 것이죠.

혼합-집중 학습 전략과 무작위 관찰 자르기:

마지막으로, 훈련 과정에서 데이터 분포의 다양성을 높이고 증강 데이터 노이즈를 억제하기 위해 혼합-집중 학습 전략무작위 관찰 자르기 기법을 개발했습니다. 이는 마치 정교한 장인이 불필요한 부분을 제거하고 핵심 부분을 강조하는 것과 같습니다.

R2R, REVERIE, R4R, R2R-CE 등 다양한 환경에서 실험 결과, RAM은 뛰어난 성능과 인상적인 일반화 능력을 보여주었습니다. 이 연구는 GitHub에서 공개되어 누구든 활용할 수 있습니다.

이 연구는 단순한 기술적 발전을 넘어, 데이터 부족 문제라는 VLN 분야의 난제를 해결하는 새로운 가능성을 제시했습니다. 이는 향후 VLN 기술 발전에 큰 영향을 미칠 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation

Published:  (Updated: )

Author: Ziming Wei, Bingqian Lin, Yunshuang Nie, Jiaqi Chen, Shikui Ma, Hang Xu, Xiaodan Liang

http://arxiv.org/abs/2503.18065v1