EAGLE-3: 훈련 시간 테스트를 통한 대규모 언어 모델 추론 가속화의 획기적 발전


Li Yuhui 등 연구진이 개발한 EAGLE-3은 훈련 시간 테스트 기술을 통해 LLM의 추론 속도를 최대 6.5배까지 향상시킨 획기적인 연구입니다. 특징 예측 대신 직접 토큰 예측을 사용하고 다층 특징 융합을 통해 훈련 데이터 확장의 이점을 극대화하였습니다.

related iamge

최근 AI 분야에서 가장 주목받는 주제 중 하나는 바로 대규모 언어 모델(LLM)의 효율적인 추론입니다. LLM은 그 뛰어난 성능에도 불구하고 순차적인 특성으로 인해 추론 속도가 느리고 비용이 많이 드는 문제점을 가지고 있습니다. 이러한 문제를 해결하기 위해, Li Yuhui 등 연구진이 개발한 EAGLE-3가 혁신적인 해결책을 제시했습니다.

기존의 EAGLE은 상위 레이어 특징을 재사용하는 방식으로 추론 속도를 높였지만, 훈련 데이터 확장의 이점을 제대로 활용하지 못하는 한계가 있었습니다. 연구진은 이러한 한계를 극복하기 위해 EAGLE-3에서 특징 예측 대신 직접 토큰 예측 방식을 채택하고, '훈련 시간 테스트(Training-Time Test)' 라는 새로운 기술을 통해 다층 특징을 융합하는 방법을 고안했습니다.

훈련 시간 테스트는 모델 훈련 단계에서 테스트를 수행하여 최적의 다층 특징 융합 전략을 학습하는 기술입니다. 이를 통해 EAGLE-3은 훈련 데이터 확장의 이점을 극대화하고, 추론 속도를 비약적으로 향상시킬 수 있었습니다.

실험 결과, EAGLE-3은 채팅 모델과 추론 모델 모두에서 5가지 과제에 걸쳐 최대 6.5배의 속도 향상을 달성했습니다. 이는 기존 EAGLE-2보다 약 1.4배 향상된 성능입니다. SGLang 프레임워크에서도 배치 크기 64일 때 1.38배의 처리량 향상을 보였습니다. EAGLE-3의 코드는 GitHub에서 확인할 수 있습니다.

EAGLE-3의 등장은 단순한 성능 향상을 넘어, 대규모 언어 모델의 실제 활용 가능성을 크게 높였다는 데 큰 의의가 있습니다. 훈련 시간 테스트라는 새로운 기술은 향후 LLM 개발에 중요한 영향을 미칠 것으로 예상되며, 더욱 빠르고 효율적인 AI 시스템 개발에 박차를 가할 것으로 기대됩니다. 이 연구는 대규모 언어 모델의 상용화를 앞당기는 중요한 이정표가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

Published:  (Updated: )

Author: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

http://arxiv.org/abs/2503.01840v2