#LLM 성능 혁신: 데이터 재작성으로 수학 및 코드 능력 향상

일본 연구팀이 LLM의 수학 및 코드 능력 향상을 위한 새로운 데이터셋 SwallowCode와 SwallowMath를 개발하여 LLM 성능을 획기적으로 향상시켰습니다. 데이터 재작성 기법을 통해 기존 데이터의 한계를 극복하고, 재현 가능한 연구 환경을 제공하여 LLM 분야 발전에 크게 기여할 것으로 예상됩니다.

LLM 성능 혁신: 데이터 재작성으로 수학 및 코드 능력 향상

최근 일본 연구팀(후지이 카즈키 외 15명)이 발표한 논문 "Rewriting Pre-Training Data Boosts LLM Performance in Math and Code"는 LLM의 수학적 추론 및 프로그램 합성 능력 향상에 획기적인 돌파구를 제시합니다. 기존 LLM의 성능 한계를 데이터 전처리라는 새로운 관점에서 접근하여, 기존 데이터셋의 문제점을 해결하고, 훨씬 효율적인 학습 데이터를 구축한 것이 핵심입니다.

이 연구팀은 Llama 3.3 Community License 하에 두 개의 공개 라이선스 데이터셋인 SwallowCode와 SwallowMath를 공개했습니다. SwallowCode는 The-Stack-v2의 파이썬 코드 스니펫을 4단계 파이프라인(구문 검증, pylint 기반 스타일 필터링, 2단계 LLM 재작성)을 통해 개선하여 약 161억 토큰의 데이터셋을 만들었습니다. 단순히 낮은 품질의 데이터를 제거하는 기존 방식과 달리, 낮은 품질의 코드를 개선하여 데이터 활용도를 극대화하는 ‘변환 및 유지’ 접근 방식을 사용한 것이 특징입니다.

SwallowMath는 Finemath-4+ 데이터셋을 개선하여 약 23억 토큰의 데이터셋을 만들었습니다. 불필요한 부분을 제거하고, 맥락을 복원하며, 솔루션을 간결하고 단계적인 설명으로 재구성하여 학습 효율을 높였습니다.

실험 결과는 놀랍습니다. Llama-3.1-8B 모델을 SwallowCode로 추가 학습시킨 결과, HumanEval과 HumanEval+에서 pass@1이 각각 +17.0, +17.7 향상되었으며, SwallowMath를 사용한 경우 GSM8K와 MATH에서 각각 +12.4, +7.6의 정확도 향상을 보였습니다. 이러한 결과는 각 파이프라인 단계가 증분적으로 기여하며, 특히 재작성 과정이 가장 큰 성능 향상을 가져온다는 것을 보여줍니다.

연구팀은 모든 데이터셋, 프롬프트, 그리고 체크포인트를 공개하여, 재현 가능한 연구 환경을 제공했습니다. 이 연구는 LLM의 특정 분야 성능 향상을 위한 새로운 기준을 제시하며, 향후 LLM의 발전에 중요한 기여를 할 것으로 기대됩니다. 특히, 데이터 전처리 기법의 중요성을 강조하며, 데이터 품질 향상을 통한 LLM 성능 향상이라는 새로운 패러다임을 제시했습니다. 앞으로도 SwallowCode와 SwallowMath와 같은 고품질 데이터셋의 개발과 활용이 LLM 연구 발전의 핵심 동력이 될 것으로 예상됩니다.

주요 연구진: 후지이 카즈키, 타지마 유키토, 미즈키 사카에, 시마다 히나리, 시오타니 타이헤이, 사이토 코시로, 오히 마사나리, 카와무라 마사키, 나카무라 타이시, 오카모토 타쿠미, 이시다 시게키, 하토리 카케루, 마 유미, 타카무라 히로야, 요코타 리오, 오카자키 나오아키

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Published: (Updated: )

Author: Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki

http://arxiv.org/abs/2505.02881v2