혁신적인 AI 플라툰 조정 기술: 대규모 언어 모델 기반의 자동화된 보상 설계 프레임워크


본 기사는 대규모 언어 모델(LLM)을 활용하여 강화학습 기반의 자율 주행 플라툰 조정 문제에 대한 보상 함수 설계를 자동화하는 새로운 프레임워크에 대해 소개합니다. 이 프레임워크는 기존의 수동 설계 방식의 한계를 극복하고, 실험 결과에서 기존 방식보다 10% 이상 향상된 성능을 보여주는 등, 자율 주행 기술 발전에 크게 기여할 것으로 기대됩니다.

related iamge

자율 주행 기술의 발전과 함께, 여러 대의 차량이 하나의 대형(플라툰)을 이루어 주행하는 기술이 주목받고 있습니다. 하지만 플라툰 조정은 복잡한 의사결정 문제를 포함하며, 효율적인 운영을 위한 최적의 '보상 함수'를 설계하는 것이 큰 과제였습니다. 기존의 수동 설계 방식은 목표의 다양성과 시행착오에 따른 시간 소모로 인해 어려움을 겪어왔습니다.

Wei Dixiao를 비롯한 연구팀은 이러한 문제를 해결하기 위해, 대규모 언어 모델(LLM) 을 활용한 혁신적인 자동화 프레임워크를 제시했습니다. 이 프레임워크는 플라툰 조정 보상 설계 문제(PCRDP) 를 공식적으로 정의하고, LLM을 통해 보상 함수의 자동 생성 및 최적화를 수행합니다.

핵심은 두 가지 모듈입니다. 첫째, 분석 및 초기 보상(AIR) 모듈은 LLM이 환경 코드와 작업 요구사항을 분석하여 초기 보상 함수를 생성합니다. 연구팀은 '사고의 연쇄(chain of thought)' 기법을 활용하여 LLM의 코드 생성 오류를 최소화했습니다. 둘째, 진화형 모듈은 훈련 피드백을 바탕으로 보상 함수를 반복적으로 개선합니다. 이를 통해 탐색 다양성과 수렴 안정성 사이의 균형을 유지합니다.

연구팀은 양자강 삼각주 교통 네트워크 시뮬레이션 환경에서 6가지 복잡도의 시나리오를 설정하여 이 프레임워크를 검증했습니다. 그 결과, 새롭게 제시된 자동화된 보상 함수를 사용한 강화학습(RL) 에이전트는 기존의 사람이 설계한 보상 함수보다 평균 10% 이상 향상된 성능을 보였습니다. 이는 LLM 기반 자동화 시스템이 플라툰 조정 문제에 대한 효율적인 해결책임을 증명하는 것입니다.

이 연구는 자율 주행 기술의 발전에 큰 기여를 할 뿐 아니라, LLM을 활용한 복잡한 문제 해결 방식에 대한 새로운 가능성을 제시합니다. 앞으로 LLM 기반의 자동화된 보상 설계는 다양한 분야에서 최적화 문제 해결에 널리 활용될 것으로 예상됩니다. 하지만, LLM의 한계와 신뢰성 확보에 대한 지속적인 연구가 필요할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] An Automated Reinforcement Learning Reward Design Framework with Large Language Model for Cooperative Platoon Coordination

Published:  (Updated: )

Author: Dixiao Wei, Peng Yi, Jinlong Lei, Yiguang Hong, Yuchuan Du

http://arxiv.org/abs/2504.19480v1