OmniThought: 방대한 사고 과정 데이터셋으로 대규모 추론 모델의 지평을 넓히다
중국과학원 자동화연구소 연구팀이 발표한 OmniThought는 200만 개의 CoT(연쇄적 사고) 과정을 포함한 대규모 데이터셋으로, 추론 상세도(RV)와 인지적 난이도(CD) 점수로 주석 처리되어 LRM(대규모 추론 모델) 훈련 효과를 향상시키는 데 기여합니다. 이를 통해 고성능 LRM 시리즈가 개발 및 공개되었으며, AI의 추론 능력 발전에 중요한 이정표를 제시합니다.

인간처럼 생각하는 AI, 그 비밀은 데이터에 있다?
최근, 수학 문제 해결이나 코드 생성과 같은 복잡한 작업에서 뛰어난 성능을 보이는 대규모 추론 모델(LRM)이 등장하며 자연어 처리 분야에 혁신을 일으키고 있습니다. 이러한 모델들은 연쇄적 사고(Chain-of-Thought, CoT) 과정을 활용하여 인간과 유사한 추론 전략을 모방하는데, 중국과학원 자동화연구소의 Cai Wenrui 박사 연구팀이 발표한 논문은 바로 이 CoT 과정의 효율성을 극대화하는데 초점을 맞추고 있습니다.
OmniThought: 200만 개의 사고 과정, 그리고 두 개의 지능
기존의 CoT 데이터셋은 여러 교사 모델에서 추출한 일관된 CoT 과정을 포괄적으로 제공하지 못하고, CoT의 내부 특성을 설명하는 다면적인 속성을 고려하지 않는다는 한계가 있었습니다. 이러한 문제를 해결하기 위해 연구팀은 OmniThought 라는 대규모 데이터셋을 공개했습니다. OmniThought는 두 개의 강력한 LRM이 생성하고 검증한 200만 개의 CoT 과정을 담고 있습니다. 단순히 많은 데이터를 모은 것이 아니라, 각 CoT 과정은 추론 상세도(RV) 와 인지적 난이도(CD) 점수로 세밀하게 주석 처리되어 있습니다. RV와 CD 점수는 모델이 이러한 추론 과정을 이해하는 데 적합한 상세도와 난이도를 나타내는 중요한 지표입니다. 마치 학생의 이해도에 맞춰 문제의 난이도를 조절하는 것과 같다고 할 수 있습니다.
자체 구축 파이프라인과 놀라운 성과
연구팀은 이 방대한 데이터셋을 구축하기 위해 자체적인 파이프라인을 개발했습니다. 그 결과, 다양한 크기의 Qwen2.5 모델을 사용한 실험을 통해 RV와 CD 점수가 LRM 훈련 효과에 긍정적인 영향을 미친다는 사실을 확인했습니다. 더 나아가, 연구팀은 OmniThought 데이터셋을 기반으로 더욱 강력한 추론 능력과 최적의 CoT 출력 길이 및 난이도를 갖춘 고성능 LRM 시리즈를 훈련하고 공개했습니다. 이는 단순한 데이터셋 공개를 넘어, 실제 모델 성능 향상으로 이어진 괄목할 만한 성과입니다.
미래를 위한 발걸음
OmniThought는 단순히 대규모 데이터셋이 아닙니다. 이는 LRM의 추론 능력 향상을 위한 새로운 가능성을 제시하는 중요한 이정표입니다. RV와 CD 점수와 같은 세밀한 주석은 향후 LRM 개발에 있어 중요한 지침이 될 것이며, 더욱 인간과 유사한 사고 능력을 갖춘 AI의 등장을 앞당길 것입니다. 이 연구는 AI 발전에 있어 데이터의 중요성을 다시 한번 강조하며, 더욱 정교하고 효율적인 AI 개발을 위한 새로운 패러다임을 제시하고 있습니다.
Reference
[arxiv] Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations
Published: (Updated: )
Author: Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang
http://arxiv.org/abs/2505.10937v1