혁신적인 AI: 대규모 언어 모델의 속도 향상을 위한 새로운 토큰 가지치기 기술
Yao Tao 등 연구진이 개발한 Saliency-driven Dynamic Token Pruning (SDTP)은 대규모 언어 모델의 계산 복잡도 문제를 해결하기 위한 혁신적인 토큰 가지치기 프레임워크입니다. 입력 토큰의 중요도를 평가하여 불필요한 토큰을 제거함으로써 추론 속도를 최대 1.75배 향상시키고 FLOPs를 33~47% 감소시키는 놀라운 성과를 달성했습니다.

최근 괄목할 만한 성과를 보이고 있는 대규모 언어 모델(LLM)은 긴 시퀀스 추론 시 주의 메커니즘의 이차적 계산 복잡도 때문에 어려움을 겪고 있습니다. Yao Tao 등 연구진이 발표한 논문, "Saliency-driven Dynamic Token Pruning for Large Language Models"은 이 문제에 대한 혁신적인 해결책을 제시합니다.
모든 토큰이 똑같지 않다: 중요도에 따른 동적 가지치기
연구진은 신경망 모델의 특징 기여도에 대한 해석 가능성 이론에서 영감을 얻어, 모든 토큰이 동일한 기여를 하는 것은 아니라는 점을 발견했습니다. 이를 바탕으로, 입력 컨텍스트에 따라 불필요한 토큰을 점진적이고 동적으로 제거하는 새로운 토큰 가지치기 프레임워크인 'Saliency-driven Dynamic Token Pruning (SDTP)'을 제안했습니다. 핵심은 각 토큰의 중요도 점수를 추정하는 경량화된 예측 모듈입니다. 이 모듈은 LLM의 여러 계층에 추가되어 계층적으로 불필요한 토큰을 제거합니다.
중요도 점수의 정확도 향상: 순위 기반 최적화 전략
더 나아가, 연구진은 중요도 점수의 순위 편차를 최소화하기 위해 순위 기반 최적화 전략을 제안했습니다. 이 전략은 중요도 점수의 정확성을 높여 더욱 효과적인 토큰 가지치기를 가능하게 합니다. 실험 결과, SDTP는 다양한 모델과 데이터셋에서 일반화될 수 있음을 보여주었습니다.
놀라운 성능 향상: 속도와 효율성의 조화
입력 토큰의 65%를 계층적으로 가지치기함으로써, SDTP는 추론 시간을 최대 1.75배 단축하고 FLOPs(부동 소수점 연산)을 33%~47%까지 감소시켰습니다. 이는 성능 저하 없이 속도 향상을 달성한 쾌거입니다. 또한, SDTP는 KV 캐시 압축 방법과 결합하여 더욱 효율적인 압축을 가능하게 합니다.
미래를 위한 전망: LLM의 확장성과 효율성의 새로운 지평
SDTP는 LLM의 계산 비용을 크게 줄이고 추론 속도를 향상시키는 획기적인 기술입니다. 이는 더욱 크고 복잡한 LLM의 개발과 배포를 가능하게 하며, AI 기술의 발전에 중요한 기여를 할 것으로 기대됩니다. 앞으로 이 기술이 어떻게 발전하고 활용될지, 그 미래가 더욱 기대됩니다. 🙏
Reference
[arxiv] Saliency-driven Dynamic Token Pruning for Large Language Models
Published: (Updated: )
Author: Yao Tao, Yehui Tang, Yun Wang, Mingjian Zhu, Hailin Hu, Yunhe Wang
http://arxiv.org/abs/2504.04514v2