혁신적인 소규모 추론 LLM 훈련 프레임워크 등장: CRV와 CogPO 알고리즘
Cai 등(2025)의 연구는 소규모 추론 LLM 훈련을 위한 혁신적인 프레임워크 CRV와 CogPO 알고리즘을 제시합니다. CRV는 비판, 재고, 검증의 과정을 통해 효율적인 추론 과정을 구축하고, CogPO는 인지적 선호도 정렬을 통해 작은 모델의 추론 능력을 향상시킵니다. 다양한 벤치마크에서 우수한 성능을 입증하며 소규모 LLM 분야의 새로운 가능성을 열었습니다.

꿈틀거리는 지능: 소규모 추론 LLM의 혁명
OpenAI의 모델이나 DeepSeek-R1과 같은 거대 언어 모델(LLM)의 추론 능력은 눈부시게 발전하고 있습니다. 마치 인간의 심층 사고를 흉내내는 듯한 놀라운 성과들이 속속들이 등장하고 있죠. 하지만 이러한 발전에는 막대한 자원이 필요하다는 치명적인 단점이 존재합니다. 더 작은 모델로도 효과적인 추론 능력을 갖춘 LLM을 훈련할 방법을 찾는 것이 절실한 시점입니다.
문제는 작은 모델이 큰 모델과는 다른 능력과 인지 과정을 갖고 있다는 점입니다. 따라서 큰 모델의 추론 과정(Chain-of-Thought, CoT)을 작은 모델에 단순히 적용하는 것은 효과적이지 못하며, 엄청난 양의 주석 데이터가 필요합니다.
CRV: 비판, 재고, 검증의 삼박자
이러한 한계를 극복하기 위해 등장한 것이 바로 Cai 등(2025) 의 새로운 프레임워크, CRV(Critique-Rethink-Verify) 입니다. CRV는 각기 다른 역할을 수행하는 여러 개의 LLM 에이전트로 구성되어 있습니다.
- 비판(Critique): 작은 모델의 인지 능력에 맞춰 CoT를 비판적으로 평가합니다.
- 재고(Rethink): 비판적인 평가를 바탕으로 CoT를 개선합니다.
- 검증(Verify): 개선된 결과의 정확성을 검증합니다.
마치 인간의 집단 지성처럼, 서로 다른 시각과 역할을 가진 에이전트들이 협력하여 더욱 정확하고 효율적인 추론 과정을 만들어내는 것이죠.
CogPO: 인지적 선호도 정렬 알고리즘
CRV와 함께 제시된 CogPO(Cognitive Preference Optimization) 알고리즘은 작은 모델의 사고 과정을 모델의 인지 능력에 맞춰 조정하는 역할을 합니다. 이를 통해 작은 모델의 추론 능력을 향상시키고, 큰 모델에 대한 의존성을 줄이는 것을 목표로 합니다.
놀라운 성과
다양한 추론 벤치마크에서 CRV와 CogPO는 기존의 훈련 방법들을 압도하는 성능을 보여주었습니다. 소규모 LLM 분야에 있어 획기적인 진전이라 할 수 있습니다.
이 연구는 단순히 새로운 기술을 제시하는 것을 넘어, 소규모 LLM의 잠재력을 극대화하는 전략을 제시했다는 점에서 큰 의미를 갖습니다. 앞으로 CRV와 CogPO를 기반으로 한 다양한 연구들이 활발하게 진행될 것으로 예상되며, AI 분야에 혁신적인 변화를 가져올 가능성이 높습니다.
Reference
[arxiv] Training Small Reasoning LLMs with Cognitive Preference Alignment
Published: (Updated: )
Author: Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang
http://arxiv.org/abs/2504.09802v1