혁신적인 언어 모델 학습 전략: 다중 토큰 예측의 커리큘럼 학습


본 연구는 소규모 언어 모델(SLM)의 성능 향상을 위해 다중 토큰 예측(MTP)과 커리큘럼 학습을 결합한 새로운 학습 전략을 제시합니다. 순방향 및 역방향 커리큘럼의 비교 분석을 통해 SLM 학습에 효과적인 전략을 제시하고, 자기 예측 디코딩과의 연관성까지 고려하여 실제 응용에 중요한 시사점을 제공합니다.

related iamge

Ansar Aynetdinov와 Alan Akbik이 최근 발표한 논문 "Pre-Training Curriculum for Multi-Token Prediction in Language Models"은 소규모 언어 모델(SLM)의 성능 향상에 새로운 돌파구를 제시합니다. 기존의 다음 토큰 예측(NTP) 방식 대신, 다중 토큰 예측(MTP) 을 활용하여 여러 개의 예측 헤드를 사용하는 것이 핵심입니다. MTP는 대규모 모델에서 성능, 추론 속도, 훈련 효율을 향상시키는 것으로 입증되었지만, SLM에서는 효과가 제한적이었습니다.

이 연구의 핵심은 바로 커리큘럼 학습입니다. 연구진은 NTP에서 MTP로 점진적으로 복잡도를 높이는 순방향 커리큘럼과 그 반대의 역방향 커리큘럼 두 가지를 제안했습니다. 흥미로운 결과가 도출되었는데요. 순방향 커리큘럼은 SLM이 MTP 목표를 더 잘 활용하도록 하여, 하류 작업의 NTP 성능과 생성 결과물의 질을 향상시켰습니다. 특히, 자기 예측 디코딩(self-speculative decoding)의 장점도 유지했습니다. 반면, 역방향 커리큘럼은 NTP 성능과 출력 품질을 더욱 향상시켰지만, 자기 예측 디코딩의 이점은 제공하지 못했습니다.

이는 SLM의 학습 과정에 있어 점진적인 복잡도 증가가 효과적임을 시사합니다. 마치 어린아이가 쉬운 문제부터 차근차근 어려운 문제를 풀어나가는 것과 같습니다. 이 연구는 단순히 MTP의 효용성을 넘어, 적절한 학습 전략의 중요성을 강조하며, 앞으로 SLM의 발전 방향에 중요한 시사점을 제공합니다. 특히, 자기 예측 디코딩과 같은 추가적인 이점까지 고려해야 함을 보여주는 훌륭한 연구입니다. 향후 다양한 언어 모델의 학습 전략을 설계하는데 중요한 지침이 될 것으로 기대됩니다.

결론적으로, 이 연구는 MTP와 커리큘럼 학습을 결합하여 SLM의 성능을 향상시키는 새로운 방법을 제시하고, 순방향 및 역방향 커리큘럼의 차이점을 명확히 밝힘으로써 실제 응용에 중요한 지침을 제공합니다. 이는 AI 분야, 특히 자연어 처리 분야의 발전에 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Pre-Training Curriculum for Multi-Token Prediction in Language Models

Published:  (Updated: )

Author: Ansar Aynetdinov, Alan Akbik

http://arxiv.org/abs/2505.22757v1