풀기 vs. 검증: LLM 추론을 위한 컴퓨팅 최적화 문제 해결 및 생성적 검증

본 연구는 LLM의 추론 능력 향상을 위한 두 가지 방법인 SC와 GenRM의 효율성을 비교 분석하여, 제한된 컴퓨팅 자원 하에서 SC가 GenRM보다 효율적임을 밝혔으며, 솔루션 생성 확장이 검증 확장보다 더 효율적인 추론 최적화 전략임을 제시합니다.

LLM 추론의 새로운 지평: 풀기와 검증의 최적 균형

대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 전략으로, 특히 수학 문제 해결과 같은 과제에서 테스트 시간 컴퓨팅의 확장이 주목받고 있습니다. Nishad Singhi 등 연구진은 최근 논문 "When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning"에서 이러한 추론 능력 향상을 위한 두 가지 주요 방법, Self-Consistency(SC)와 Generative Reward Model(GenRM)의 효율성을 비교 분석하여 주목받고 있습니다.

기존의 Self-Consistency(SC)는 여러 솔루션을 생성하고 다수결 투표를 통해 가장 일반적인 답변을 선택하는 방식입니다. 반면, GenRM은 각 솔루션을 점수 매기는 검증자 역할을 하는 보상 모델을 사용하여 최상의 솔루션을 선택합니다. GenRM은 검증을 다음 토큰 예측 작업으로 재구성하여 새로운 차원의 추론 시간 확장을 가능하게 합니다. 즉, 여러 검증 사고 과정을 생성하여 각 솔루션을 점수 매깁니다.

하지만 제한된 추론 예산 하에서는 딜레마가 발생합니다. SC를 통해 솔루션 생성을 확장할 것인가, 아니면 더 적은 솔루션을 생성하고 GenRM을 통해 검증에 컴퓨팅 자원을 할당할 것인가 하는 문제입니다.

연구진은 고정된 추론 예산 하에서 다양한 모델과 데이터 세트에 걸쳐 GenRM과 SC를 평가했습니다. 그 결과, 놀랍게도 대부분의 실용적인 추론 예산에서 SC가 GenRM보다 컴퓨팅 효율성이 더 높다는 것을 발견했습니다. GenRM이 SC와 동등한 성능을 보이려면 최대 8배의 추론 컴퓨팅이 필요하며, SC를 능가하려면 훨씬 더 많은 컴퓨팅 자원이 필요하다는 사실을 밝혔습니다.

더 나아가, 연구진은 GenRM 패러다임에 대한 추론 확장 법칙을 도출하여 컴퓨팅 최적의 추론을 위해서는 검증 수를 늘리는 것보다 솔루션 생성을 더 적극적으로 확장하는 것이 효율적임을 밝혔습니다. 이 연구는 솔루션 생성과 검증 간의 균형을 맞춤으로써 테스트 시간 확장을 최적화하기 위한 실질적인 지침을 제공합니다. 관련 코드는 GitHub에서 확인할 수 있습니다.

결론적으로, 이 연구는 LLM 추론 최적화에 있어서 단순히 컴퓨팅 자원을 늘리는 것만이 능사가 아님을 시사하며, SC와 GenRM의 효율적인 조합을 통해 최적의 성능을 달성할 수 있는 전략을 제시합니다. 앞으로 LLM의 추론 능력 향상을 위한 연구 방향에 중요한 시사점을 제공할 것으로 기대됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Published: (Updated: )

Author: Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

http://arxiv.org/abs/2504.01005v1