LLM 테스트 시간 확장의 새로운 지평: 단순함의 승리?
본 연구는 LLM 테스트 시간 확장에서 복잡한 프롬프팅 전략보다 단순한 Chain-of-Thought 전략이 샘플링 시간 증가 시 더 나은 성능을 보인다는 것을 실험적으로 증명하고, 확률 이론에 기반한 최적 전략 예측 방법 및 성능 향상 방법을 제시합니다.

최근 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 확장이 큰 주목을 받고 있습니다. 하지만 다양한 추론 프롬프팅 전략이 확장될 때 어떻게 작동하는지에 대한 연구는 제한적이었습니다. Liu 박사 연구팀(Liu, Li, Fang, Xu, He, & Tan, 2025)은 이러한 한계를 극복하고자, 표준적이고 현실적인 확장 설정인 다수결 투표에 초점을 맞춘 연구를 진행했습니다.
연구팀은 6개의 LLM, 8개의 프롬프팅 전략, 6개의 벤치마크에 대한 체계적인 실험을 수행했습니다. 놀랍게도, 샘플링 시간과 계산 오버헤드가 증가함에 따라 초기 성능이 우수했던 복잡한 프롬프팅 전략들이 단순한 Chain-of-Thought 전략에 뒤처지는 현상이 일관되게 나타났습니다. 이는 기존의 상식을 뒤엎는 결과입니다. 단순한 것이 항상 최고는 아니지만, 특정 조건에서는 복잡성이 오히려 성능 저하를 야기할 수 있음을 시사합니다.
연구팀은 이러한 현상을 분석하고 이론적 증명을 제공했습니다. 더 나아가, 확률 이론에 따라 실제로 추가적인 자원 집약적인 추론 없이도 대규모 샘플링 시간에서 최적의 전략을 빠르고 정확하게 예측하는 방법을 제안했습니다. 이는 다수결 투표에 대한 테스트 시간 확장 법칙으로 활용될 수 있습니다. 뿐만 아니라, 이론적 분석에서 도출된 두 가지 방법을 통해 확장 성능을 크게 향상시키는 방법도 제시했습니다.
이 연구는 복잡한 프롬프팅의 역할을 재검토하고, 단순한 프롬프팅 전략의 잠재력을 극대화하며, 테스트 시간 확장 성능 향상을 위한 새로운 통찰력을 제공합니다. 단순함 속에 숨겨진 강력한 힘을 보여주는 흥미로운 연구 결과입니다. 향후 LLM 개발 및 응용에 있어 중요한 이정표가 될 것으로 예상됩니다.
참고: Liu, Y., Li, Z., Fang, Z., Xu, N., He, R., & Tan, T. (2025). Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory.
Reference
[arxiv] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory
Published: (Updated: )
Author: Yexiang Liu, Zekun Li, Zhi Fang, Nan Xu, Ran He, Tieniu Tan
http://arxiv.org/abs/2505.10981v1