컴퓨팅 자원 인식 가지치기를 활용한 이중 에이전트 마이그레이션을 위한 Bi-LSTM 기반 다중 에이전트 강화학습
본 기사는 Wei 박사 연구팀의 최신 연구 결과를 소개하며, 차량 탑재형 AI 네트워크(VEANs)의 효율적인 에이전트 마이그레이션을 위한 Bi-LSTM 기반 다중 에이전트 강화학습 및 컴퓨팅 자원 인식 가지치기 알고리즘을 중점적으로 다룹니다. 슈타켈베르크 게임 모델링과 TMABLPPO 알고리즘, 그리고 PX 기반 가지치기 알고리즘의 효과를 통해 시스템 부하 균형 및 지연 시간 최소화를 달성한 연구 결과를 제시합니다.

첨단 기술의 만남: 차량 탑재형 AI 네트워크(VEANs)의 혁신
최근 대규모 언어 모델과 탑재형 AI의 발전은 지능형 교통 시스템에 새로운 가능성을 열었습니다. 특히, 차량 탑재형 AI 네트워크(VEANs) 는 이러한 첨단 기술의 결합을 통해 자율주행 자동차(AVs)의 능력을 한층 끌어올리고 있습니다. VEANs에서 AVs는 환경 인식 및 다중 에이전트 협업과 같은 기능을 가능하게 하는 차량 탑재형 AI 에이전트로서 작동합니다.
하지만, 계산 지연 시간 및 자원 제약으로 인해 차량 탑재형 AI 에이전트는 집중적인 작업을 도로변 장치(RSUs)로 마이그레이션해야 할 필요가 있습니다. 이를 위해, Wei 박사 연구팀은 'Bi-LSTM 기반 다중 에이전트 강화학습(DRL)과 컴퓨팅 자원 인식 가지치기를 활용한 에이전트 쌍 마이그레이션' 이라는 혁신적인 방법을 제시했습니다.
슈타켈베르크 게임과 TMABLPPO 알고리즘
기존 방식의 RSU 간 작업 부하 불균형 문제를 해결하기 위해, 연구팀은 AV-RSU 상호 작용을 슈타켈베르크 게임으로 모델링했습니다. 이를 통해 효율적인 마이그레이션을 위한 대역폭 자원 할당을 최적화할 수 있습니다. Tiny Multi-Agent Bidirectional LSTM Proximal Policy Optimization (TMABLPPO) 알고리즘은 분산 조정을 통해 슈타켈베르크 균형을 근사화하여 시스템 부하 균형과 지연 시간 최소화를 달성합니다.
개인화된 신경망 가지치기 알고리즘: 성능 저하 최소화
연구팀은 또한 이질적인 AV 컴퓨팅 성능에 동적으로 적응하는 경로 제외(PX) 기반의 개인화된 신경망 가지치기 알고리즘을 개발했습니다. 이 알고리즘은 훈련된 모델에서 작업에 중요한 매개변수를 식별하여 모델 복잡성을 줄이고 성능 저하를 최소화합니다.
실험 결과와 미래 전망
실험 결과는 TMABLPPO 알고리즘과 PX 기반 가지치기 알고리즘이 시스템 부하 균형 및 지연 시간 최소화에 효과적임을 보여주었습니다. 이 연구는 차량 탑재형 AI 에이전트 배포의 혁신을 가져올 뿐만 아니라, 지능형 교통 시스템의 발전에 중요한 기여를 할 것으로 기대됩니다. 향후 연구는 더욱 복잡하고 동적인 교통 환경에서의 알고리즘 성능 개선과 다양한 에이전트 유형 및 상호 작용에 대한 확장성 연구에 초점을 맞출 것으로 예상됩니다. 이는 자율주행 기술의 안전성과 효율성을 높이는 데 크게 기여할 것입니다.
Reference
[arxiv] Bi-LSTM based Multi-Agent DRL with Computation-aware Pruning for Agent Twins Migration in Vehicular Embodied AI Networks
Published: (Updated: )
Author: Yuxiang Wei, Zhuoqi Zeng, Yue Zhong, Jiawen Kang, Ryan Wen Liu, M. Shamim Hossain
http://arxiv.org/abs/2505.06378v1