혁신적인 AI 모델 MuToR: 다중 토큰 예측의 새 지평을 열다
Anastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis 세 연구원이 개발한 MuToR은 기존 다중 토큰 예측 방식의 한계를 극복하는 혁신적인 모델입니다. 추가 매개변수 없이 기존 모델과 호환되며, 다양한 응용 분야에서 성능 향상을 보여줍니다.

최근 몇 년간 자연어 처리 분야에서 다중 토큰 예측(Multi-token prediction)이 주목받고 있습니다. 하지만 이 방법은 언어 모델 사전 훈련에는 효과적이지만, 미세 조정과 같은 다른 설정에서는 그 효과가 일관되지 않았습니다. 이러한 한계를 극복하기 위해 Anastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis 세 연구원이 개발한 MuToR(Multi-Token Prediction Needs Registers)이 등장했습니다.
MuToR은 학습 가능한 레지스터 토큰을 입력 시퀀스에 삽입하는 간단하면서도 효과적인 접근 방식입니다. 각 레지스터 토큰은 미래의 대상을 예측하는 역할을 합니다. 기존 방법과 비교했을 때 MuToR의 주요 장점은 다음과 같습니다.
- 매개변수 최소화: 추가적인 매개변수가 거의 필요하지 않습니다.
- 구조적 변화 없음: 기존의 사전 훈련된 언어 모델과 호환됩니다.
- 다음 토큰 사전 훈련 목표와의 일관성 유지: 지도 학습 미세 조정에 특히 적합합니다.
- 확장 가능한 예측 범위 지원: 예측 범위를 자유롭게 확장할 수 있습니다.
연구진은 다양한 실험을 통해 MuToR의 효과와 다용성을 입증했습니다. 지도 학습 미세 조정, 매개변수 효율적인 미세 조정(PEFT), 사전 훈련 등 다양한 use case에서 언어 및 비전 영역의 복잡한 생성 작업에서 성능 향상을 보였습니다. 특히, 기존의 방식과 달리 추가적인 매개변수나 구조적 변화 없이 성능을 향상시켰다는 점이 주목할 만합니다.
MuToR의 코드는 GitHub에서 확인할 수 있습니다. 이 연구는 다중 토큰 예측의 잠재력을 극대화하고, 보다 효율적이고 강력한 AI 모델 개발에 기여할 것으로 기대됩니다. 앞으로 MuToR이 어떻게 다양한 응용 분야에 적용되고 발전할지 지켜볼 필요가 있습니다.
(참고) 2025년 5월 15일 발표된 논문을 바탕으로 작성되었습니다.
Reference
[arxiv] Multi-Token Prediction Needs Registers
Published: (Updated: )
Author: Anastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis
http://arxiv.org/abs/2505.10518v1