좌뇌와 우뇌를 넘나드는 AI: 시각-언어 탐색을 위한 적응형 텍스트 드리머 (Adaptive Text Dreamer)
Pingrui Zhang 등 연구팀이 개발한 Adaptive Text Dreamer(ATD)는 좌뇌와 우뇌를 모방한 이중 구조로 LLM을 활용, 시각-언어 탐색(VLN) 문제를 효율적이고 정확하게 해결하는 혁신적인 시스템입니다. R2R 벤치마크에서 최첨단 성능을 달성했으며, 인간 뇌 구조 모방이라는 새로운 패러다임을 제시합니다.

최근 발표된 연구에서, Pingrui Zhang을 비롯한 연구팀은 시각-언어 탐색(VLN) 분야에 혁신적인 접근 방식을 제시했습니다. VLN은 부분적으로만 관찰 가능한 환경에서 자연어 명령을 따라 탐색하는 과제로, 지각과 언어 간의 정합이 어려운 난제입니다. 기존의 방법들은 미래 장면을 상상하여 이 문제를 해결하려 했지만, 시각 기반 합성에 의존하여 계산 비용이 높고 불필요한 세부 정보가 많다는 단점이 있었습니다.
연구팀은 이러한 문제점을 해결하기 위해 적응형 텍스트 드리머(ATD) 라는 새로운 시스템을 개발했습니다. ATD는 대규모 언어 모델(LLM) 을 기반으로 하며, 인간의 뇌 구조를 모방한 이중 구조를 가지고 있습니다. 마치 좌뇌와 우뇌처럼, 좌뇌는 논리적 통합에, 우뇌는 상상력을 통한 미래 장면 예측에 집중합니다.
핵심적인 차별점은 미래 장면을 언어 형태로 상상한다는 점입니다. 이를 위해 연구팀은 양쪽 뇌 모두에서 Q-former만 미세 조정하는 전략을 채택했습니다. 이는 LLM 내의 특정 영역 지식을 효율적으로 활성화시켜, 탐색 중 논리적 추론과 상상력을 동적으로 업데이트하는 것을 가능하게 합니다. 더 나아가, 좌뇌와 우뇌 간의 상호 작용 메커니즘을 도입하여 상상된 결과물을 조정하고 탐색 전문가 모듈에 주입함으로써, LLM의 추론 능력과 탐색 모델의 전문성을 동시에 활용합니다.
R2R 벤치마크 실험 결과, ATD는 기존 최고 성능을 뛰어넘는 결과를 보였으며, 매개변수 수도 적다는 장점을 가지고 있습니다. 이는 보다 효율적이고 정확한 VLN 시스템 개발에 중요한 진전을 의미합니다. 자세한 내용은 GitHub 저장소에서 확인할 수 있습니다.
이 연구는 단순한 기술적 발전을 넘어, 인간 뇌의 작동 방식을 모방하여 인공지능 시스템을 설계하는 새로운 패러다임을 제시한다는 점에서 큰 의미를 지닙니다. 향후 VLN뿐 아니라 다양한 인공지능 분야에서 ATD의 설계 원리가 폭넓게 활용될 것으로 기대됩니다.
Reference
[arxiv] Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation
Published: (Updated: )
Author: Pingrui Zhang, Yifei Su, Pengyuan Wu, Dong An, Li Zhang, Zhigang Wang, Dong Wang, Yan Ding, Bin Zhao, Xuelong Li
http://arxiv.org/abs/2505.20897v1