샘플 특정 언어 모델 최적화: 테스트 시간 최적화로 정확도 향상을 이룬 SLOT 모델
SLOT 모델은 테스트 시간에 샘플 특정 매개변수 벡터를 최적화하여 LLM의 정확도를 향상시키는 새로운 방법입니다. 다양한 벤치마크에서 기존 모델보다 우수한 성능을 보였으며, 그 코드는 공개되어 있습니다.

최근 AI 분야에서 괄목할 만한 성과를 보이고 있는 거대 언어 모델(LLM)은 복잡한 지시사항에 대한 처리 능력이 아직 완벽하지 못하다는 한계를 가지고 있습니다. 일반적인 샘플에서 잘 나타나지 않는 지시사항에 대해서는 성능이 저하되는 경우가 많았습니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 SLOT (Sample-specific Language Model Optimization at Test-time) 입니다.
Yang Hu 등 연구진이 개발한 SLOT은 테스트 시간에 경량의 샘플 특정 매개변수 벡터를 최적화하는 참신한 접근 방식을 제시합니다. 기존 LLM의 성능을 향상시키는 동시에 매개변수 효율성까지 고려한 혁신적인 아이디어입니다.
SLOT의 핵심은 샘플별 최적화 중 마지막 레이어 기능을 캐싱하는 것입니다. 이를 통해 모델은 각 프롬프트에 대해 효율적으로 적응할 수 있습니다. 또한, 입력 프롬프트에 대한 교차 엔트로피 손실을 최소화함으로써 모델이 주어진 지시사항을 보다 정확하게 따르도록 유도합니다. 결과적으로, 복잡한 지시사항에도 더욱 정확하고 효과적인 응답을 생성할 수 있습니다.
실험 결과는 SLOT의 효과를 명확하게 보여줍니다. Qwen2.5-7B 모델에 SLOT을 적용했을 때 GSM8K 벤치마크에서 정확도가 57.54%에서 66.19%로 무려 8.6%나 증가했습니다. DeepSeek-R1-Distill-Llama-70B 모델에서는 GPQA 벤치마크에서 **70B 수준 모델 중 최고 정확도인 68.69%**를 달성했습니다. 이는 SLOT이 다양한 LLM과 벤치마크에서 뛰어난 성능 향상을 가져온다는 것을 의미합니다.
SLOT의 코드는 GitHub에서 공개되어 있으며, AI 연구자들에게 귀중한 자원이 될 것으로 기대됩니다. 이 연구는 LLM의 성능 향상을 위한 새로운 가능성을 제시하며, 앞으로 더욱 발전된 LLM 개발에 크게 기여할 것으로 예상됩니다. 🎉
Reference
[arxiv] SLOT: Sample-specific Language Model Optimization at Test-time
Published: (Updated: )
Author: Yang Hu, Xingyu Zhang, Xueji Fang, Zhiyang Chen, Xiao Wang, Huatian Zhang, Guojun Qi
http://arxiv.org/abs/2505.12392v1