딥크리틱(DeepCritic): 거대 언어 모델의 수학적 비판 능력 강화
본 연구는 거대 언어 모델(LLM)의 수학적 추론 과정에 대한 비판 능력 향상을 목표로, 2단계 프레임워크 기반의 DeepCritic 모델을 제안합니다. Qwen2.5 기반의 지도 학습 및 강화 학습을 통해 기존 모델 대비 우수한 오류 식별 및 수정 능력을 보여주는 DeepCritic은 LLM의 신뢰성 향상에 기여할 것으로 기대됩니다.

거대 언어 모델(LLM)이 빠르게 발전함에 따라, 그 출력물에 대한 정확한 피드백과 확장 가능한 감독이 시급한 문제로 떠올랐습니다. Yang 등의 연구진은 LLM을 비판 모델로 활용하여 자동화된 감독을 달성하고자 하는 흥미로운 연구를 발표했습니다. 그 결과물이 바로 DeepCritic입니다.
기존의 LLM 비판 모델들은 각 단계에 대한 비판이 너무 피상적이고, 그 결과 정확도가 낮아 LLM 생성기가 실수를 수정하도록 충분한 피드백을 제공하는 데 어려움을 겪었습니다. 이러한 문제를 해결하기 위해, 연구진은 각 추론 단계에 대해 심도있는 비판이 가능한 혁신적인 2단계 프레임워크를 제안했습니다.
DeepCritic의 핵심은 다음과 같습니다.
- 초기 데이터 생성: Qwen2.5-72B-Instruct를 사용하여 다각적 검증과 각 추론 단계에 대한 심층적인 비판을 포함하는 4.5K 개의 장문 비판 데이터를 생성했습니다. 이는 지도 학습의 핵심 데이터로 활용됩니다.
- 강화 학습: 미세 조정된 모델에 대해 기존의 PRM800K 데이터 또는 Monte Carlo 샘플링 기반 정확도 추정을 통해 자동으로 주석을 달아 생성한 데이터를 사용하여 강화 학습을 수행했습니다. 이를 통해 비판 능력을 더욱 향상시켰습니다.
결과적으로 Qwen2.5-7B-Instruct 기반으로 개발된 DeepCritic 모델은 다양한 오류 식별 벤치마크에서 기존 LLM 비판 모델(DeepSeek-R1-distill, GPT-4o 포함)을 능가하는 성능을 보였습니다. 뿐만 아니라, 더욱 상세한 피드백을 통해 LLM 생성기가 잘못된 단계를 더 효과적으로 수정하도록 도왔습니다.
이 연구는 LLM의 신뢰성과 정확성을 높이는 데 중요한 발걸음을 내딛은 것으로 평가되며, 앞으로 LLM 기반 시스템의 발전에 큰 영향을 미칠 것으로 기대됩니다. 하지만, 모든 데이터가 완벽하지 않다는 점과, LLM 자체의 한계를 완전히 극복할 수 없는 점을 고려해야 할 것입니다. 더욱 심층적인 연구와 검증을 통해 DeepCritic의 실용성과 안정성을 더욱 높이는 노력이 필요합니다.
Reference
[arxiv] DeepCritic: Deliberate Critique with Large Language Models
Published: (Updated: )
Author: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
http://arxiv.org/abs/2505.00662v1