혁신적인 AI 디코딩 기술: 추론 속도 2배 향상의 비밀
본 연구는 대규모 언어 모델의 추론 속도 향상을 위한 혁신적인 추측적 디코딩 기술과 그 스케일링 법칙을 제시합니다. Scylla 시스템을 통해 기존 시스템 대비 최대 2.2배 향상된 디코딩 속도를 달성하여, AI의 실용성을 한층 높이는 데 기여할 것으로 예상됩니다.

최근, 대규모 언어 모델(LLM)의 추론 속도 향상이 인공지능 분야의 주요 과제로 떠오르고 있습니다. 특히 OpenAI-o3 및 DeepSeek-R1과 같은 추론 집약적 아키텍처는 복잡한 사고 과정을 거치기 때문에 효율적인 디코딩 기술이 절실히 필요합니다. Yan Siyuan 등 연구진은 이러한 문제에 대한 해결책으로 '추측적 디코딩(Speculative Decoding)' 기술의 스케일링 법칙을 규명하여 주목받고 있습니다.
추측적 디코딩: 병렬 처리의 마법
연구진은 병렬 초안 검증 주기를 활용하는 추측적 디코딩 기법을 심층적으로 연구하여, 기존의 사전 학습 -> SFT -> RLHF 학습 방식과는 다른 새로운 스케일링 법칙을 발견했습니다. 이들은 '로그 선형 스케일링 법칙(Log-linear Scaling Laws)' (Theorem 1.1, 1.2, 1.3)을 통해 사전 학습 토큰 양, 초안 모델 용량, 디코딩 배치 크기의 세 가지 차원에서 디코딩 속도(초안 모델 수용률)를 제어하는 방법을 밝혀냈습니다.
Scylla: LLM의 속도를 극대화하다
연구진은 이러한 법칙을 바탕으로 Scylla라는 시스템을 개발했습니다. Scylla는 Llama2/3, Qwen2.5와 같은 인기 있는 LLM에 대해 다차원 스케일링을 조정하여 효율성을 극대화합니다. 실험 결과, Scylla는 기존의 EAGLE2보다 최대 2.2배, EAGLE3보다 0.3배 높은 수용률을 달성했으며, 특히 요약 및 질의응답 작업에서 성능 향상이 두드러졌습니다 (Figure 2 참조). 더욱 놀라운 것은 산업용 추론 엔진 배포 환경에서 EAGLE2 대비 2배의 디코딩 처리량 향상을 기록했다는 점입니다 (Table 5 참조).
미래를 위한 전망
이번 연구는 LLM의 효율적인 추론을 위한 체계적인 스케일링의 잠재력을 보여주는 중요한 결과입니다. 연구진은 추후 코드를 공개할 예정이며, Scylla와 같은 혁신적인 기술을 통해 AI의 실용성이 한층 더 높아질 것으로 기대됩니다. 이 연구는 단순한 속도 향상을 넘어, 더욱 복잡하고 정교한 추론 작업을 가능하게 하는 기반을 마련했다는 점에서 큰 의의를 지닙니다. 앞으로 이러한 기술 발전이 어떤 새로운 가능성을 열어갈지 기대해 볼 만합니다.
Reference
[arxiv] Scaling Laws for Speculative Decoding
Published: (Updated: )
Author: Siyuan Yan, Mo Zhu, Guo-qing Jiang, Jianfei Wang, Jiaxing Chen, Wentai Zhang, Xiang Liao, Xiao Cui, Chen Zhang, Zhuoran Song, Ran Zhu
http://arxiv.org/abs/2505.07858v1