Heimdall: 생성적 검증을 통한 테스트 시간 확장의 혁신
Shi와 Jin의 연구는 LLM의 검증 능력 향상에 초점을 맞춘 Heimdall 모델과 비관적 검증 기법을 제시하여 문제 해결 정확도를 획기적으로 향상시켰으며, 자동 지식 발견 시스템을 통해 데이터 품질 향상에도 기여하는 혁신적인 연구 결과를 보여줍니다.

생성적 검증의 혁신: Heimdall이 이끄는 AI 지식 시대의 도래
최근 긴 사고 과정 추론(Long Chain-of-Thought reasoning) 분야에서 대규모 언어 모델(LLM)의 경쟁력 있는 문제 해결 능력이 주목받고 있습니다. 하지만 이러한 모델들의 검증 능력은 아직 미흡하며, 충분한 연구가 이루어지지 않았습니다. Shi와 Jin이 이끄는 연구팀은 이러한 한계를 극복하기 위해, 정답의 정확성을 판별하는 긴 사고 과정 검증 LLM인 Heimdall을 제안했습니다.
Heimdall은 순수 강화 학습을 통해 경쟁적인 수학 문제에 대한 검증 정확도를 62.5%에서 94.5%로 획기적으로 향상시켰습니다. 반복적 샘플링을 통한 확장을 통해 정확도는 97.5%까지 더욱 높아졌습니다. 인간 평가를 통해 Heimdall은 훈련 과정에 포함되지 않은 유형의 어려운 수학 증명에서도 대부분의 문제를 성공적으로 감지하는 인상적인 일반화 능력을 보여주었습니다.
연구팀은 Heimdall의 기능을 확장하여 문제 해결 능력을 향상시키는 비관적 검증(Pessimistic Verification) 기법도 제안했습니다. 이 기법은 해결 모델에서 나온 해결책을 Heimdall이 판단하고, 비관적인 원칙에 따라 불확실성이 가장 적은 가장 가능성 있는 정답을 선택합니다. DeepSeek-R1-Distill-Qwen-32B를 해결 모델로 사용하여 AIME2025 문제에서 16배의 컴퓨팅 비용으로 해결 정확도를 54.2%에서 70.0%로, 더 많은 컴퓨팅 비용으로 83.3%까지 향상시켰습니다. 더 강력한 Gemini 2.5 Pro를 사용하면 점수는 93.0%에 달합니다.
마지막으로, 연구팀은 질문을 하는 구성 요소, 해결책을 제공하는 구성 요소, 그리고 해결책을 검증하는 구성 요소의 세 가지 구성 요소로 이루어진 자동 지식 발견 시스템의 프로토타입을 개발했습니다. NuminaMath 데이터 합성 작업을 처음 두 구성 요소에 사용하여 Heimdall은 데이터 세트 내의 문제가 있는 레코드를 효과적으로 식별하고, 데이터의 거의 절반이 결함이 있음을 밝혀냈습니다. 이는 NuminaMath의 최근 ablation 연구와도 일치하는 흥미로운 결과입니다.
Heimdall은 LLM의 검증 능력 향상을 위한 중요한 이정표를 제시하며, AI 시스템의 지식 생성 및 유지 능력 향상에 크게 기여할 것으로 기대됩니다. 비관적 검증과 자동 지식 발견 시스템은 AI 기술의 발전과 더 나아가 데이터 품질 향상에도 큰 영향을 미칠 것으로 예상됩니다. 앞으로 이러한 연구 결과가 AI 분야의 지속적인 발전을 이끌어나갈 것으로 기대합니다.
Reference
[arxiv] Heimdall: test-time scaling on the generative verification
Published: (Updated: )
Author: Wenlei Shi, Xing Jin
http://arxiv.org/abs/2504.10337v1