초대형 AI 모델, 이젠 에지에서 효율적으로! 무선 에지 네트워크 내 효율적인 대규모 AI 모델 추론
본 논문은 무선 에지 네트워크에서 대규모 AI 모델의 효율적인 추론을 위한 프루닝 기반 공동 추론 방식을 제안합니다. 이론적 분석과 시뮬레이션을 통해 제안된 방식의 성능을 검증하고, 성능, 지연 시간, 에너지 소비 간의 최적 균형을 달성함을 보여줍니다.

최근 대규모 AI 모델(LAIM)의 수요 증가는 기존 클라우드 기반 추론에서 저지연, 개인정보보호 애플리케이션을 위한 에지 기반 추론으로의 패러다임 전환을 주도하고 있습니다. 특히, LAIM을 에지 장치와 서버 간에 분할하는 에지-장치 공동 추론(co-inference)은 무선 네트워크에서 자원 효율적인 LAIM 실행을 위한 유망한 전략으로 떠오르고 있습니다.
중국과학원, 스웨덴 룬드대학교 공동연구팀은 프루닝 기반 LAIM 공동 추론 방식을 연구했습니다. 미리 훈련된 LAIM을 프루닝하고 장치 상과 서버 상의 하위 모델로 분할하여 배포하는 방식입니다. 연구팀은 먼저 LAIM 출력 왜곡이 매개변수 왜곡에 의해 상한선이 설정됨을 증명했습니다. 그리고 속도-왜곡 이론을 통해 매개변수 왜곡의 하한선을 유도하여 프루닝 비율과 공동 추론 성능 간의 관계를 분석적으로 파악했습니다.
이러한 분석 결과를 바탕으로, 연구팀은 시스템 지연 시간, 에너지 및 사용 가능한 자원 제약 조건 하에서 프루닝 비율, 전송 전력 및 계산 주파수를 공동으로 최적화하여 LAIM 공동 추론 왜곡 경계 최소화 문제를 공식화했습니다. 또한, 매우 비볼록한 문제를 해결하기 위한 효율적인 알고리즘을 제안했습니다.
광범위한 시뮬레이션을 통해 제안된 설계의 효과를 입증했습니다. 특히, 모델 매개변수 왜곡은 출력 왜곡에 대한 신뢰할 수 있는 경계를 제공하는 것으로 나타났습니다. 또한, 제안된 공동 프루닝 비율 및 자원 관리 설계는 완전한 장치 상 및 서버 상 추론과 같은 벤치마크 방식에 비해 추론 성능, 시스템 지연 시간 및 에너지 소비 간의 절충을 조정하는 데 뛰어난 성능을 달성했습니다. 더욱이, 분할 지점은 이종 및 자원 제한 에지 환경에서 시스템 성능 최적화에 중요한 역할을 하는 것으로 나타났습니다.
결론적으로, 이 연구는 프루닝과 자원 관리를 결합하여 에지 환경에서 대규모 AI 모델의 효율적인 추론을 가능하게 하는 새로운 방법을 제시하며, 성능, 지연 시간, 에너지 소비의 최적 균형을 제공합니다. 이는 향후 에지 컴퓨팅 기반의 AI 서비스 발전에 중요한 기여를 할 것으로 예상됩니다. 특히, 제한된 자원을 가진 에지 장치에서도 고성능 AI 서비스를 제공할 수 있는 가능성을 열어줍니다. 하지만, 실제 다양한 에지 환경에서의 추가적인 실험과 검증이 필요하며, 실제 적용을 위한 보다 효율적이고 안정적인 알고리즘 개발이 향후 연구 과제로 남아 있습니다.
Reference
[arxiv] The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks
Published: (Updated: )
Author: Zhonghao Lyu, Ming Xiao, Jie Xu, Mikael Skoglund, Marco Di Renzo
http://arxiv.org/abs/2505.09214v1