획기적인 LLM 성능 향상: 'Saliency-driven Dynamic Token Pruning' 소개


Yao Tao 등 연구진의 Saliency-driven Dynamic Token Pruning (SDTP)은 대규모 언어 모델의 계산 복잡도 문제를 해결하기 위한 혁신적인 토큰 가지치기 프레임워크입니다. 입력 컨텍스트에 기반한 동적 토큰 제거를 통해 연산량을 크게 줄이고 속도를 향상시키면서 성능 저하를 최소화합니다. 다양한 모델과 데이터셋에 적용 가능한 일반적인 프레임워크로서, LLM의 실용화 및 확장 가능성에 크게 기여할 것으로 예상됩니다.

related iamge

급증하는 AI 처리 비용, 이제는 걱정 끝!

최근 괄목할 만한 성장세를 보이는 대규모 언어 모델(LLM)은 긴 문장 처리에 어려움을 겪고 있습니다. 어텐션 메커니즘의 제곱에 비례하는 계산 복잡도 때문이죠. Yao Tao 등 연구진이 발표한 논문 "Saliency-driven Dynamic Token Pruning for Large Language Models" 은 이 문제에 대한 혁신적인 해결책을 제시합니다.

모든 토큰이 다 중요할까요? 🔑

연구진은 신경망 모델의 특징 기여도 해석 이론에서 영감을 얻어, 모든 토큰이 동일한 기여를 하는 것은 아니라는 점을 발견했습니다. 이를 바탕으로, Saliency-driven Dynamic Token Pruning (SDTP) 라는 새로운 토큰 가지치기 프레임워크를 제안합니다. SDTP는 입력 컨텍스트에 따라 중복 토큰을 점진적이고 동적으로 제거하는 기술입니다.

가볍지만 강력한 예측 모듈의 등장 ✨

핵심은 경량화된 saliency 기반 예측 모듈입니다. 이 모듈은 각 토큰의 중요도 점수를 추정하여 LLM의 여러 계층에 적용, 계층적으로 중복 토큰을 제거합니다. 여기에 더해, 순위 기반 최적화 전략을 통해 중요도 점수의 순위 분포 차이를 최소화합니다.

놀라운 성능 향상! 🚀

실험 결과, SDTP는 다양한 모델과 데이터셋에서 우수한 성능을 보였습니다. 입력 토큰의 65%를 제거했음에도 불구하고, 33%~47%의 FLOPs 감소최대 1.75배의 속도 향상을 달성했으며, 성능 저하는 거의 없었습니다. 더 나아가, KV 캐시 압축 기법과 결합하여 더욱 효율적인 압축을 구현할 수 있음을 보여주었습니다.

미래를 향한 한 걸음 👣

이 연구는 LLM의 계산 비용 문제를 효과적으로 해결하는 동시에, 다양한 모델과 데이터셋에 적용 가능한 일반적인 프레임워크를 제공합니다. 이는 LLM의 실용화 및 확장 가능성에 큰 기여를 할 것으로 기대됩니다. SDTP는 단순한 성능 향상을 넘어, AI 기술의 지속 가능한 발전에 중요한 이정표를 세운 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Saliency-driven Dynamic Token Pruning for Large Language Models

Published:  (Updated: )

Author: Yao Tao, Yehui Tang, Yun Wang, Mingjian Zhu, Hailin Hu, Yunhe Wang

http://arxiv.org/abs/2504.04514v1