혁신적인 데이터 재작성: 수학 및 코드 능력 향상시킨 LLM의 비약
본 연구는 LLM의 수학 및 코드 능력 향상을 위해 기존 데이터를 체계적으로 재작성한 SwallowCode와 SwallowMath 데이터셋을 소개합니다. Llama-3.1-8B 모델을 이용한 실험 결과, 두 데이터셋 모두 LLM의 성능을 크게 향상시키는 것으로 나타났으며, 모든 데이터셋과 결과는 공개되어 재현 가능한 연구를 지원합니다.

프로그래밍과 수학적 추론 분야에서 대규모 언어 모델(LLM)의 한계를 극복할 획기적인 연구 결과가 발표되었습니다. 후지이 카즈키 등 16명의 연구진은 기존 학습 데이터를 체계적으로 재작성하여 LLM의 성능을 비약적으로 향상시키는 두 개의 새로운 데이터셋, SwallowCode와 SwallowMath를 공개했습니다. 이 연구는 LLM의 사전 학습 데이터 품질이 성능에 미치는 중요성을 강조하며, 단순한 데이터 추가가 아닌 데이터의 질적 개선이 얼마나 중요한지를 보여줍니다.
SwallowCode: 파이썬 코드의 혁신적인 변신
SwallowCode는 약 161억 토큰 규모로, The-Stack-v2에서 추출한 파이썬 코드 스니펫을 4단계 파이프라인을 통해 정제했습니다. 이 파이프라인은 구문 검증, pylint 기반 스타일 필터링, 그리고 LLM을 이용한 2단계 재작성 과정으로 구성되어 있습니다. 특히, 기존의 단순 제거 방식이 아닌, 저품질 코드를 고품질 코드로 변환하는 '변환 및 유지' 접근 방식을 통해 데이터 활용도를 극대화했습니다. 이는 기존의 데이터 필터링 방식의 한계를 뛰어넘는 혁신적인 시도입니다.
SwallowMath: 수학 문제 풀이의 명쾌한 설명
SwallowMath는 약 23억 토큰 규모로, Finemath-4+를 개선하여 불필요한 부분을 제거하고, 맥락을 복원하며, 솔루션을 간결하고 단계적인 설명으로 재구성했습니다. 복잡한 수식을 명확하게 이해할 수 있도록 만든 것이 특징입니다. 이는 LLM이 수학 문제를 해결하는 과정을 더욱 투명하고 이해하기 쉽게 만들어줍니다.
Llama-3.1-8B 모델의 놀라운 성능 향상
연구진은 Llama-3.1-8B 모델에 SwallowCode와 SwallowMath를 사용하여 지속적인 사전 학습을 진행했습니다. 그 결과, HumanEval 및 HumanEval+에서 pass@1이 각각 17.0%, 17.7% 향상되었고, GSM8K와 MATH에서도 각각 12.4%, 7.6%의 정확도 향상을 보였습니다. 이는 SwallowCode와 SwallowMath가 LLM의 코드 생성 및 수학적 추론 능력을 실질적으로 향상시켰다는 것을 의미합니다. 단순히 데이터 양의 증가가 아닌, 데이터 질의 개선을 통한 효율적인 LLM 학습이라는 점이 주목할 만합니다.
공개된 데이터셋과 미래 연구
모든 데이터셋, 프롬프트, 그리고 체크포인트는 공개적으로 제공되어 재현 가능한 연구를 가능하게 합니다. 이는 앞으로 LLM의 전문 분야 사전 학습 연구에 큰 기여를 할 것으로 기대됩니다. 본 연구는 LLM의 성능 향상을 위한 새로운 가능성을 제시하며, 향후 AI 기술 발전에 중요한 이정표가 될 것입니다. 특히, 데이터 재작성이라는 새로운 패러다임은 앞으로 LLM 연구의 중요한 방향을 제시할 것으로 예상됩니다. 다만, 데이터셋의 규모와 품질에 따른 성능 변화에 대한 추가적인 연구가 필요할 것으로 보입니다.
Reference
[arxiv] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
Published: (Updated: )
Author: Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki
http://arxiv.org/abs/2505.02881v1