엣지 환경에서의 초저지연 AI 추론: 대규모 언어 모델 분할의 혁신
본 기사는 엣지 환경에서의 대규모 언어 모델(LLM) 추론 지연 시간 감소를 위한 새로운 연구 결과를 소개합니다. Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos 세 연구자는 자원 인식 Transformer 아키텍처 분할 알고리즘을 제시하여, 어텐션 헤드 레벨에서의 디코더 분할 및 동적 마이그레이션을 통해 추론 속도와 메모리 사용량을 크게 개선했습니다. 이 연구는 엣지 컴퓨팅 분야의 발전에 크게 기여할 것으로 기대됩니다.

최근 급증하는 대규모 언어 모델(LLM)의 활용에도 불구하고, 자원 제약이 심한 엣지 환경에서의 고성능 추론은 여전히 난제로 남아있습니다. Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos 세 연구자는 이 문제에 대한 획기적인 해결책을 제시했습니다. 그들의 논문, "Large Language Model Partitioning for Low-Latency Inference at the Edge" 에서는 자원 인식 Transformer 아키텍처 분할 알고리즘을 통해 엣지 디바이스에서의 LLM 추론 지연 시간을 획기적으로 줄이는 방법을 선보였습니다.
기존의 계층 기반 분할 방식은 메모리 과부하나 높은 지연 시간을 초래하는 경우가 많았습니다. 토큰 생성 과정에서 메모리와 연산 부하가 점진적으로 증가하기 때문입니다. 이에 연구팀은 토큰 생성 중 정기적인 간격으로 분할 결정을 업데이트하는 새로운 알고리즘을 개발했습니다. 이 알고리즘은 디바이스의 자원 가용성과 네트워크 대역폭에 대한 실시간 정보를 바탕으로 블록을 배치하고 마이그레이션합니다. 마이그레이션 지연 시간과 추론 지연 시간의 합이 최소가 되도록 동적으로 블록을 이동시키는 것이 핵심입니다.
특히, 이 연구는 어텐션 헤드 레벨에서 디코더를 분할하고, 각 어텐션 헤드를 해당 키-값 캐시와 함께 배치하는 방식을 채택했습니다. 자원이 부족해지면 동적으로 어텐션 헤드를 다른 디바이스로 마이그레이션하여 병렬 실행을 가능하게 합니다. 이를 통해 어텐션 헤드의 병렬 처리를 통해 추론 지연 시간을 상당히 줄일 수 있습니다.
실험 결과는 고무적입니다. 소규모 환경(3-5개 디바이스)에서는 최적 해결책의 지연 시간의 15~20% 이내의 성능을 달성했고, 대규모 환경에서도 기존의 최첨단 계층 기반 분할 방식에 비해 추론 속도와 메모리 사용량을 크게 개선했습니다.
이 연구는 엣지 컴퓨팅 분야에 중요한 함의를 지닙니다. 자율주행, 로봇 공학, 사물 인터넷(IoT) 등 실시간 처리가 필수적인 다양한 애플리케이션에서 LLM의 활용 가능성을 넓히는 혁신적인 기술이라고 할 수 있습니다. 앞으로 더욱 발전된 연구를 통해 더욱 광범위한 엣지 환경에서 효율적인 LLM 추론을 가능하게 할 것으로 기대됩니다.
Reference
[arxiv] Large Language Model Partitioning for Low-Latency Inference at the Edge
Published: (Updated: )
Author: Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos
http://arxiv.org/abs/2505.02533v1