그래프 기반 합성 데이터 생성: LLM의 지식 습득 혁신을 이끌다
중국과학원 자동화연구소 연구팀이 개발한 Synthetic-on-Graph(SoG)는 LLM의 데이터 효율성 문제를 해결하는 혁신적인 합성 데이터 생성 프레임워크입니다. 문서 간 지식 연관성을 고려한 합성 데이터 생성, CoT 및 CC 기법을 통한 데이터 품질 향상으로 다중 도약 질의응답에서 SOTA 성능을 달성했습니다.

데이터 부족의 한계를 뛰어넘는 혁신: Synthetic-on-Graph(SoG)
최근 괄목할 만한 성과를 거두고 있는 대규모 언어 모델(LLM)은 여전히 데이터 효율성 문제에 직면하고 있습니다. 특히, 소규모의 전문화된 말뭉치나 제한적이고 독점적인 데이터로 학습할 때는 더욱 그렇습니다. 기존의 합성 데이터 생성 방법들은 주로 문서 내 콘텐츠에만 집중하여 문서 간의 지식 연관성을 간과해왔습니다. 이는 콘텐츠의 다양성과 심도를 제한하는 요인이었습니다.
하지만 중국과학원 자동화연구소의 Xuhui Jiang 박사 연구팀은 이러한 한계를 극복하기 위해 혁신적인 Synthetic-on-Graph(SoG) 프레임워크를 개발했습니다. SoG는 문서 간의 지식 연관성을 통합하여 효율적인 말뭉치 확장을 가능하게 하는 합성 데이터 생성 프레임워크입니다.
SoG: 문서 간 지식 연관성을 활용한 합성 데이터 생성
SoG는 원본 말뭉치에서 개체와 개념을 추출하여 문서 간 연관성을 나타내는 맥락 그래프를 구성합니다. 그리고 그래프 워크 전략을 사용하여 지식과 연관된 샘플링을 수행합니다. 이를 통해 합성 데이터의 다양성과 일관성을 높이고, 모델이 복잡한 지식 구조를 학습하고 희귀 지식을 처리할 수 있도록 합니다.
더 나아가, Chain-of-Thought(CoT) 와 Contrastive Clarifying(CC) 합성 기법을 통합하여 합성 데이터의 품질을 향상시켰습니다. CoT와 CC는 각각 모델의 추론 과정과 판별력을 강화하는 역할을 합니다.
뛰어난 성능과 일반화 능력
실험 결과, SoG는 다중 도약 문서 질의응답(Multi-hop document Q&A) 데이터셋에서 최첨단(SOTA) 방법을 능가하는 성능을 보였습니다. 독해(Reading Comprehension) 작업 데이터셋에서는 SOTA 방법과 비슷한 성능을 보였는데, 이는 SoG의 뛰어난 일반화 능력을 보여줍니다.
결론: LLM의 효율적인 지식 습득을 위한 새로운 길
SoG는 합성 데이터 생성 분야를 발전시키고, 특히 데이터 가용성이 제한적인 분야에서 LLM의 효율적인 지식 습득을 위한 실질적인 해결책을 제공합니다. 이 연구는 LLM의 데이터 효율성 문제 해결에 중요한 이정표를 제시하며, 앞으로 LLM의 발전에 큰 영향을 미칠 것으로 기대됩니다. Jiang 박사 연구팀의 혁신적인 연구는 데이터 제약을 극복하고 AI의 지평을 넓히는 중요한 발걸음입니다.
Reference
[arxiv] Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models
Published: (Updated: )
Author: Xuhui Jiang, Shengjie Ma, Chengjin Xu, Cehao Yang, Liyu Zhang, Jian Guo
http://arxiv.org/abs/2505.00979v2