멀티모달 대규모 언어 모델의 속도 혁신: 다중 모드 예측 디코딩(MSD)
Lin 등 연구진이 개발한 다중 모드 예측 디코딩(MSD)은 텍스트와 시각 토큰의 특성 차이를 고려한 새로운 멀티모달 대규모 언어 모델(MLLM) 추론 가속화 기법입니다. 두 단계의 훈련 전략을 통해 언어 모델링과 시각적 인식 능력을 모두 향상시켜 LLaVA 모델의 추론 속도를 최대 2.46배까지 높였습니다.

최근 Lin 등 연구진이 발표한 논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 속도를 획기적으로 향상시키는 새로운 방법, 다중 모드 예측 디코딩(MSD) 을 소개합니다. 기존의 예측 디코딩은 대규모 언어 모델(LLM)의 속도를 높이는 데 효과적이었지만, MLLM에는 그 효과가 미흡했습니다. 이러한 한계를 극복하기 위해 연구진은 MLLM의 특성에 맞춰 예측 디코딩을 재구상했습니다.
연구진의 분석에 따르면, MLLM의 효율적인 처리를 위해서는 두 가지 핵심 원칙이 필요합니다.
- 텍스트와 시각 토큰의 차별적 처리: 텍스트와 시각 토큰은 근본적으로 다른 특성을 가지므로, 초안 작성 단계에서 별도로 처리해야 합니다.
- 언어 모델링 및 시각적 인식 능력의 균형: 초안 모델은 언어 모델링 능력과 시각적 인식 능력 모두를 갖춰야 합니다.
MSD는 이러한 원칙을 바탕으로 설계되었습니다. 먼저, 텍스트와 시각 토큰을 초안 모델에서 분리하여 각각의 특성에 맞춰 처리합니다. 그리고 두 단계의 훈련 전략을 통해 모델의 성능을 향상시킵니다.
- 1단계: 텍스트 기반의 지시어 조정 데이터셋을 사용하여 언어 모델링 능력을 향상시킵니다.
- 2단계: 점진적으로 멀티모달 데이터를 도입하여 시각적 인식 능력을 강화합니다.
실험 결과, MSD는 LLaVA-1.5-7B 모델의 추론 속도를 최대 2.29배, LLaVA-1.5-13B 모델의 추론 속도를 최대 2.46배까지 향상시켰습니다. 이는 MSD의 효과를 명확하게 보여주는 결과입니다. 연구진은 관련 코드를 GitHub(https://github.com/Lyn-Lucy/MSD)에 공개했습니다. 이 연구는 MLLM의 성능 향상에 중요한 발걸음이 될 것으로 기대됩니다. 향후 연구를 통해 MSD의 응용 분야가 더욱 확장될 것으로 예상됩니다.
Reference
[arxiv] Speculative Decoding Reimagined for Multimodal Large Language Models
Published: (Updated: )
Author: Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Rongrong Ji
http://arxiv.org/abs/2505.14260v1