딥러닝 모델의 추론 능력 향상을 위한 혁신적인 CoT 데이터 생성 기법
딥시크-AI 연구팀의 혁신적인 CoT 데이터 생성 기법은 LLM의 추론 능력에 맞춰 질문 난이도를 조정하여 데이터 생성 비용을 절감하고 모델 성능을 향상시켰습니다. 소량의 고품질 데이터로도 기존 모델을 뛰어넘는 성능을 달성하여 AI 모델 개발의 새로운 가능성을 제시했습니다.

최근 딥시크-AI 연구팀은 671B 파라미터의 거대 언어 모델인 딥시크-R1(671B) 을 통해 복잡한 문제 해결에 탁월한 추론 능력을 선보였습니다. 이 연구는 단순한 답변 생성을 넘어, 문제 해결 과정을 상세히 보여주는 사고 과정(Chain-of-Thought, CoT) 데이터 생성에 중요한 발견을 제공합니다. 이를 통해 소규모 거대 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 가능성이 열렸습니다.
하지만, 모든 LLM에 적합한 고품질 CoT 데이터를 효율적으로 생성하는 것은 여전히 큰 과제입니다. 유, 우, 천 등 10명의 연구원으로 구성된 연구팀은 LLM의 추론 능력에 맞춰 질문의 난이도를 조정하는 혁신적인 방법을 제시했습니다. 이는 마치 학생의 수준에 맞춘 맞춤형 학습 자료를 제공하는 것과 같습니다.
연구팀은 먼저 LLM의 추론 능력 자체를 평가하여 질문의 난이도를 분류하고, 이를 기반으로 LLM 적응형 질문 데이터베이스를 구축했습니다. 그 후, 난이도 분포에 따라 질문을 샘플링하고, 딥시크-R1(671B)을 활용하여 정답과 함께 고품질 CoT 데이터를 생성했습니다. 이는 마치 숙련된 선생님이 학생에게 딱 맞는 문제와 해설을 제공하는 것과 같습니다. 이 방법을 통해 데이터 생성 비용을 크게 줄이고, 모델의 지도 학습 미세 조정(Supervised Fine-Tuning, SFT) 효율성을 높였습니다.
놀라운 점은, 이렇게 생성된 고품질 CoT 데이터를 활용하여 개발된 새로운 모델, ZMath-32B와 ZCode-32B가 기존 모델인 DeepSeek-Distill-32B를 능가하는 성능을 보였다는 것입니다. 특히 수학 추론 과제에서는 고작 2,000개의 고품질 수학 CoT 데이터만으로, 코드 추론 과제에서는 2,000개의 고품질 코드 CoT 데이터만으로도 DeepSeek-Distill-32B를 뛰어넘는 성능을 달성했습니다. 이는 데이터의 질이 양보다 훨씬 중요함을 보여주는 결과입니다.
이 연구는 복잡한 수학 경시대회 및 코드 생성 작업 분야에서 그 효과와 일반화 가능성을 입증했습니다. 이러한 혁신적인 접근 방식은 앞으로 소규모 LLM의 추론 능력 향상에 크게 기여할 것으로 기대됩니다. 데이터 효율성을 극대화하여 더욱 효과적인 AI 모델 개발의 새로운 장을 열어갈 것입니다.
Reference
[arxiv] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
Published: (Updated: )
Author: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu
http://arxiv.org/abs/2504.11919v1