엣지 AI의 혁신: Qwen2.5 모델의 놀라운 경량화 및 가속화


Xiang, Fernando, Wang 등 연구진이 Qwen2.5-0.5B 모델을 Xilinx Kria KV260 플랫폼에 효율적으로 배포하는 프레임워크를 제시했습니다. AWQ와 FPGA 가속, 하이브리드 실행 전략을 통해 55.08%의 모델 압축률과 초당 5.1 토큰의 처리 속도를 달성, 엣지 AI의 발전에 크게 기여할 것으로 기대됩니다.

related iamge

최근 Xiang, Fernando, Wang 등 연구진이 발표한 논문 "On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration"은 엣지 디바이스에서의 대규모 언어 모델(LLM) 추론 효율 향상에 대한 획기적인 해결책을 제시합니다. 고성능이지만 높은 연산량과 에너지 소비로 엣지 디바이스 배포에 어려움을 겪던 Transformer 기반의 LLM을 효율적으로 구현하는 방법을 제시한 것이죠.

연구진은 Xilinx Kria KV260 엣지 플랫폼을 활용하여 Qwen2.5-0.5B 모델을 최적화했습니다. KV260은 ARM Cortex-A53 CPU와 재구성 가능한 FPGA 로직을 통합한 이기종 시스템으로, 이러한 특성을 최대한 활용한 것이 특징입니다. 핵심은 Activation-aware Weight Quantization (AWQ) 와 FPGA 가속 실행 파이프라인입니다. AWQ를 통해 모델 크기를 효과적으로 줄이고, FPGA를 통해 처리 속도를 높였습니다.

단순히 FPGA만 사용한 것이 아니라, 하이브리드 실행 전략을 도입하여 연산 부하를 효율적으로 분산했습니다. 즉, 연산량이 많은 작업은 FPGA로, 가벼운 작업은 CPU로 처리하여 전체 성능을 극대화한 것입니다. 그 결과는 놀랍습니다. 원본 모델 대비 55.08%의 모델 압축률을 달성했고, 처리 속도는 초당 5.1 토큰으로 기존 성능(초당 2.8 토큰)을 크게 뛰어넘었습니다. 이는 엣지 디바이스에서 실시간으로 LLM을 활용하는 다양한 애플리케이션의 가능성을 열어줄 획기적인 성과입니다.

이 연구는 단순한 성능 향상을 넘어, 에너지 효율적인 AI 시스템 구축과 엣지 컴퓨팅의 발전에 크게 기여할 것으로 예상됩니다. 앞으로 더욱 발전된 모델 압축 및 하드웨어 가속 기술과의 접목을 통해, 보다 강력하고 효율적인 엣지 AI 시스템의 등장을 기대해 볼 수 있습니다. 🌎🚀


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

Published:  (Updated: )

Author: Maoyang Xiang, Ramesh Fernando, Bo Wang

http://arxiv.org/abs/2504.17376v1