VERDI: 자율 주행의 혁신, 거대 언어 모델의 힘을 빌리다
VERDI는 거대 언어 모델의 추론 능력을 자율 주행 시스템에 효율적으로 통합하여, 기존 방식보다 10% 향상된 성능과 높은 추론 속도를 달성한 혁신적인 프레임워크입니다. 이는 자율 주행 기술의 안전성과 효율성을 크게 높이는 획기적인 연구 결과로 평가받고 있습니다.

자율 주행 기술은 급속도로 발전하고 있지만, 부분적인 관측 정보와 복잡한 현실 세계의 상황에서 최적의 의사결정을 내리는 데 어려움을 겪고 있습니다. 인간 운전자는 제한된 정보로도 상식적인 추론을 통해 거의 최적의 판단을 내릴 수 있죠. 이러한 인간의 능력을 모방하기 위해 최근에는 미세 조정된 비전-언어 모델(VLMs)을 활용한 자율 주행 경로 계획 연구가 활발히 진행되고 있습니다.
하지만 기존의 방법들은 엄청난 계산 자원을 필요로 하고, 안전성 확보에 어려움이 있었습니다. 예를 들어, 700억 개의 매개변수를 가진 VLM은 초당 겨우 8개의 토큰만 처리할 수 있으며, 160GB 이상의 메모리가 필요하다는 점입니다. 마치 슈퍼컴퓨터를 차에 싣고 다니는 격이죠. 이러한 문제를 해결하기 위해, Bowen Feng 등 연구진은 VERDI (VLM-Embedded Reasoning for Autonomous Driving) 라는 혁신적인 프레임워크를 제안했습니다.
VERDI는 VLMs의 추론 과정과 상식적 지식을 자율 주행 시스템에 효율적으로 통합합니다. 이는 인지, 예측, 계획 단계에서 VLMs가 생성한 운전 추론 과정을 설명하는 텍스트 기능과 중간 모듈 출력을 정렬함으로써 가능해집니다. 잠재 공간에서의 정렬을 통해, VERDI는 대규모 VLMs의 추론 시간 비용 없이 모듈식 자율 주행 시스템이 구조화된 추론을 내재화하도록 합니다.
NuScenes 데이터셋을 사용한 실험 결과, VERDI는 추론 과정을 포함하지 않는 기존의 e2e 방식보다 ℓ₂ 거리 기준으로 10% 향상된 성능을 보였으며, 높은 추론 속도를 유지했습니다. 이는 마치 인간 운전자의 두뇌를 자율 주행 자동차에 이식한 것과 같은 획기적인 결과입니다. VERDI는 단순히 VLMs의 성능을 활용하는 것을 넘어, 그 추론 과정 자체를 자율 주행 시스템에 학습시켜 더욱 안전하고 효율적인 자율 주행을 가능하게 하는 혁신적인 기술입니다. 이는 자율 주행 기술의 상용화를 앞당기는 중요한 발걸음이 될 것입니다.
Reference
[arxiv] VERDI: VLM-Embedded Reasoning for Autonomous Driving
Published: (Updated: )
Author: Bowen Feng, Zhiting Mei, Baiang Li, Julian Ost, Roger Girgis, Anirudha Majumdar, Felix Heide
http://arxiv.org/abs/2505.15925v1