Heimdall: 생성적 검증을 위한 테스트 시간 확장의 혁신
Shi와 Jin의 논문에서 소개된 Heimdall은 LLM의 검증 능력을 강화하여 문제 해결 정확도를 높이고 자동 지식 발견 시스템 구축의 가능성을 제시하는 혁신적인 모델입니다. 비관적 검증 기법을 통해 불확실성을 줄이고, 다양한 해결 모델과의 조합을 통해 높은 정확도를 달성합니다.

거대 언어 모델의 검증 능력 강화: Heimdall의 등장
최근 장문 사고 연쇄(Long Chain-of-Thought, CoT) 추론 분야에서 거대 언어 모델(LLM)의 경쟁력 있는 문제 해결 능력이 주목받고 있습니다. 하지만, 이러한 모델들의 검증 능력은 아직 미흡하며, 충분한 연구가 이루어지지 않았습니다. Shi와 Jin이 제시한 논문에서 소개된 Heimdall은 이러한 한계를 극복하기 위한 획기적인 시도입니다.
Heimdall은 장문 CoT 검증을 위한 LLM으로, 솔루션의 정확성을 정확하게 판단할 수 있도록 설계되었습니다. 강화 학습을 통해 수학 문제에서 검증 정확도를 62.5%에서 94.5%로 끌어올렸으며, 반복적 샘플링을 통해 97.5%까지 향상시켰습니다. 인간 평가를 통해 Heimdall은 훈련 과정에 포함되지 않은 유형의 어려운 수학 증명에서도 대부분의 문제를 성공적으로 감지하는 인상적인 일반화 능력을 보여주었습니다.
비관적 검증: 문제 해결의 새로운 지평
Heimdall의 기능을 확장하여 문제 해결 능력을 향상시키기 위해 비관적 검증(Pessimistic Verification) 이라는 기법이 제안되었습니다. 이 기법은 Heimdall을 이용하여 해결 모델에서 나온 솔루션을 판단하고, 비관적인 원칙에 따라 불확실성이 가장 적은 가장 정확한 솔루션을 선택합니다. DeepSeek-R1-Distill-Qwen-32B를 해결 모델로 사용했을 때, 비관적 검증은 AIME2025에서 16배의 컴퓨팅 비용으로 해결 정확도를 54.2%에서 70.0%로, 더 많은 컴퓨팅 비용으로 83.3%까지 향상시켰습니다. 더 강력한 Gemini 2.5 Pro를 사용하면 점수가 93.0%에 도달합니다.
자동 지식 발견 시스템: 미래를 위한 청사진
마지막으로, 질문을 하는 구성 요소, 솔루션을 제공하는 구성 요소, 그리고 솔루션을 검증하는 구성 요소의 세 가지로 구성된 자동 지식 발견 시스템이 시제품으로 제작되었습니다. NuminaMath 데이터 합성 작업을 처음 두 구성 요소에 사용하여 Heimdall은 데이터 세트 내의 문제가 있는 레코드를 효과적으로 식별하고, 데이터의 거의 절반이 결함이 있음을 밝혀냈습니다. 이는 NuminaMath의 최근 ablation 연구 결과와 일치하는 흥미로운 결과입니다.
Heimdall은 LLM의 검증 능력 향상에 새로운 가능성을 제시하며, 자동 지식 발견 시스템 구축의 초석이 될 것으로 기대됩니다. 이는 단순한 문제 해결을 넘어, AI 시스템의 신뢰성과 지식 생성 능력을 크게 향상시키는 혁신적인 발걸음입니다.
Reference
[arxiv] Heimdall: test-time scaling on the generative verification
Published: (Updated: )
Author: Wenlei Shi, Xing Jin
http://arxiv.org/abs/2504.10337v2