압축된 대규모 추론 모델: 복잡한 추론 과제에서의 성능 벤치마킹
본 연구는 대규모 추론 모델(LRM)의 압축에 대한 체계적인 벤치마킹을 통해, 압축 기법 선택 및 효율적인 추론 체인 설계의 중요성을 강조합니다. 매개변수 수가 지식 암기에는 큰 영향을 미치지만, 추론 능력에는 상대적으로 적은 영향을 미친다는 점을 발견하여, 압축 전략 수립에 중요한 시사점을 제공합니다.

최근 오픈소스 대규모 추론 모델(LRM)은 복잡한 추론 과제에서 뛰어난 성능을 보여주고 있지만, 방대한 매개변수로 인해 개인 사용자에게는 접근성이 낮다는 한계가 있습니다. 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)의 압축 기술이 주목받고 있습니다. 하지만, 특히 LRM에 대한 압축된 LLM의 성능에 대한 체계적인 연구는 부족한 실정입니다. 기존의 양자화 및 가지치기 연구는 주로 언어 모델링 성능 유지에 초점을 맞춰왔고, 지식 증류 연구 또한 추론 난이도나 압축이 지식 및 추론에 미치는 영향을 포괄적으로 평가하지 못했습니다.
Nan Zhang 등 연구진은 DeepSeek-R1 모델을 대상으로, 수학적 추론부터 다단계 추론까지 다양한 추론 과제(AIME 2024, FOLIO, BIG-Bench Hard의 시간적 순서, MuSiQue)에서 양자화, 증류, 가지치기 기법을 사용하여 압축된 모델의 성능을 벤치마킹했습니다. 2.51비트, 1.73비트, 1.58비트의 동적 양자화를 적용한 R1 모델과, LLaMA 또는 Qwen 기반의 증류 R1 모델, 그리고 SparseGPT를 이용하여 다양한 희소성 수준을 갖는 모델을 평가했습니다.
주목할 만한 결과는 MuSiQue 데이터셋을 사용한 실험에서 매개변수 수가 LRM의 지식 암기에는 큰 영향을 미치지만, 추론 능력에는 그 영향이 상대적으로 적다는 점을 발견한 것입니다. 이는 압축 기법 선택에 중요한 시사점을 제공합니다. 또한, 테스트 시간 계산(각 질문에 사용된 토큰 수)에 대한 경험적 분석을 통해, 여러 벤치마크에서 R1과 그 압축 변형 모두에서 짧은 모델 출력이 더 나은 성능을 달성한다는 것을 발견했습니다. 이는 더욱 간결한 추론 체인의 필요성을 강조합니다.
본 연구는 압축된 LRM의 성능과 동작을 심층적으로 분석하여, 효율적인 AI 개발을 위한 중요한 지침을 제시합니다. 압축 기술의 선택 및 최적화를 통해 비용 효율적인 고성능 AI 시스템 구축이 가능해질 것으로 기대됩니다. 하지만, 추론 과제의 복잡성에 따른 압축 전략의 차별화 및 더욱 정교한 추론 체인 설계에 대한 추가 연구가 필요할 것으로 예상됩니다.
Reference
[arxiv] When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks
Published: (Updated: )
Author: Nan Zhang, Yusen Zhang, Prasenjit Mitra, Rui Zhang
http://arxiv.org/abs/2504.02010v1