혁신적인 AI 기술: 토큰 생성 속도를 획기적으로 높이는 FlexiDepth
Luo, Wang, Yan 연구팀은 LLM의 토큰 생성 속도를 향상시키는 적응형 계층 건너뛰기 기법 FlexiDepth를 개발했습니다. Llama-3-8B 모델 실험 결과, 계층 건너뛰기 후에도 성능 저하 없이 속도 향상을 달성하였으며, FlexiDepth와 관련 데이터셋을 공개하여 추가 연구를 지원합니다.

최근, 대규모 언어 모델(LLM)의 속도 향상을 위한 다양한 계층 건너뛰기(layer-skipping) 방법들이 제시되어 왔습니다. 하지만 이러한 방법들은 토큰 생성 과정에서의 계산 요구량이 토큰 유형에 따라 다르다는 점을 간과했습니다.
Luo, Wang, 그리고 Yan이 이끄는 연구팀은 이러한 한계를 극복하기 위해 FlexiDepth 라는 혁신적인 방법을 개발했습니다. FlexiDepth는 LLM의 원래 매개변수를 변경하지 않고, 플러그인 라우터와 어댑터를 통해 토큰 생성 시 사용되는 Transformer 계층의 수를 동적으로 조절합니다.
이는 마치 인간의 직관과 유사합니다. 반복적인 토큰이나 고정된 구문을 생성할 때는 간단한 계산만으로 충분하지만, 복잡한 계산이나 높은 불확실성이 필요한 토큰을 생성할 때는 더 많은 계층이 필요하다는 점을 감안한 것입니다.
연구팀은 Llama-3-8B 모델에 FlexiDepth를 적용하여 그 효과를 검증했습니다. 그 결과, 32개의 계층 중 8개의 계층을 건너뛰면서도 기존 성능을 100% 유지하는 놀라운 결과를 얻었습니다. 이는 계산 비용을 크게 절감하면서도 성능 저하 없이 LLM의 속도를 향상시킬 수 있음을 보여줍니다.
더욱 고무적인 것은 연구팀이 FlexiDepth와 FlexiDepth의 계층 할당 패턴을 기록한 데이터셋을 공개 소스로 공개했다는 점입니다. 이를 통해 향후 연구가 더욱 활발하게 진행될 것으로 예상됩니다.
FlexiDepth의 핵심:
- 동적 계층 조정: 토큰 유형에 따라 필요한 계층 수를 동적으로 조정합니다.
- 플러그인 아키텍처: 기존 LLM의 매개변수를 변경하지 않고 플러그인 방식으로 적용 가능합니다.
- 성능 유지: 계층 건너뛰기 후에도 성능 저하 없이 속도 향상을 달성합니다.
- 공개 소스: FlexiDepth와 관련 데이터셋을 공개하여 연구 확산을 지원합니다.
이 연구는 LLM의 효율성을 획기적으로 개선하는 중요한 발걸음이며, 향후 AI 기술 발전에 크게 기여할 것으로 기대됩니다. FlexiDepth의 등장으로 더욱 빠르고 효율적인 AI 시스템 구축이 가능해질 전망입니다.
Reference
[arxiv] Adaptive Layer-skipping in Pre-trained LLMs
Published: (Updated: )
Author: Xuan Luo, Weizhi Wang, Xifeng Yan
http://arxiv.org/abs/2503.23798v2