자율주행 안전성 평가의 혁신: 대규모 언어 모델 기반의 자동화된 취약점 발견


Le Qiu 등 연구진은 대규모 언어 모델(LLM)을 활용한 새로운 프레임워크 AED를 통해 자율주행 정책의 효과적이고 다양한 취약점을 자동으로 발견하는 방법을 제시했습니다. AED는 기존 RL 기반 접근 방식의 한계를 극복하고, 자동화된 취약점 발견으로 수동적인 보상 설계의 필요성을 줄이며, 안전성 평가의 효율성과 정확성을 크게 향상시켰습니다.

related iamge

자율주행 자동차의 안전성 확보는 우리 시대의 가장 중요한 과제 중 하나입니다. 기존의 강화학습(Reinforcement Learning, RL) 기반 접근 방식은 자율주행 정책의 취약점을 발견하는 데 효과적이었지만, 효과적인(실제 사고로 이어지는) 취약점과 다양한(다양한 유형의 실패) 취약점을 동시에 찾아내는 데 어려움을 겪었습니다. Le Qiu 등 연구진이 발표한 논문, "AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models"은 이러한 문제에 대한 획기적인 해결책을 제시합니다.

핵심 아이디어: AED 프레임워크

연구진은 대규모 언어 모델(Large Language Model, LLM)을 활용한 새로운 프레임워크, AED를 제안했습니다. AED는 다음과 같은 세 단계를 거쳐 자율주행 정책의 취약점을 자동으로 발견합니다.

  1. LLM을 활용한 보상 함수 자동 설계: 먼저, LLM을 사용하여 RL 훈련을 위한 보상 함수를 자동으로 설계합니다. 이를 통해 기존의 수동적인 보상 함수 설계의 어려움과 한계를 극복합니다. 이는 마치 LLM이 자율주행 시스템의 '교관' 역할을 하는 것과 같습니다. LLM은 다양한 시나리오와 상황을 고려하여, 사고 발생 시 더욱 정확하고 효과적인 보상 함수를 생성하는 것입니다.

  2. 다양한 사고 유형에 대한 적대적 정책 병렬 훈련: LLM은 다양한 사고 유형을 고려하여, 각 유형에 대한 적대적 정책(adversarial policies)을 병렬적으로 훈련합니다. 이는 다양한 상황에서 자율주행 시스템의 취약점을 포괄적으로 발견하는 데 기여합니다. 마치 다양한 '공격자'를 만들어 시스템의 방어력을 시험하는 것과 같습니다.

  3. 선호도 기반 학습을 통한 비효과적인 사고 필터링 및 취약점 효과 향상: 마지막으로, 선호도 기반 학습(preference-based learning)을 통해 비효과적인 사고를 제거하고 각 취약점의 효과를 향상시킵니다. 이는 실제 사고로 이어질 가능성이 높은 취약점을 선별하는 과정으로, 시스템의 안전성 평가에 대한 신뢰도를 높입니다. 이는 마치 '전문가 심사'와 같은 역할을 수행합니다.

놀라운 결과

다양한 시뮬레이션 환경과 테스트 정책을 통해 실험한 결과, AED는 기존의 전문가가 설계한 보상 함수보다 더 넓은 범위의 취약점을 발견하고, 더 높은 공격 성공률을 달성했습니다. 이는 AED가 자율주행 정책의 안전성 평가에 있어 효율성과 정확성을 크게 향상시켰음을 의미합니다. 수동적인 보상 설계의 어려움을 극복하고, 취약점 발견의 다양성과 효과성을 향상시킨 것입니다.

미래 전망

AED는 자율주행 기술의 안전성을 크게 향상시키는 데 기여할 뿐만 아니라, 다른 분야의 안전성 평가에도 적용될 수 있는 잠재력을 가지고 있습니다. LLM을 활용한 자동화된 안전성 평가는 미래 기술 발전의 중요한 방향이 될 것입니다. 하지만, LLM의 한계와 편향성 등을 고려한 추가적인 연구가 필요하며, 윤리적인 문제들에 대한 고려 또한 필수적입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models

Published:  (Updated: )

Author: Le Qiu, Zelai Xu, Qixin Tan, Wenhao Tang, Chao Yu, Yu Wang

http://arxiv.org/abs/2503.20804v1