SynAlign: 분포 일치 기반의 LLM 합성 데이터 생성 프레임워크
본 기사는 Ren 등(2025)의 연구를 바탕으로, LLM을 활용한 합성 데이터 생성의 한계점을 극복하는 SynAlign 프레임워크를 소개합니다. SynAlign은 가우시안 프로세스 모델과 잠재 속성 추론 기법을 활용하여 실제 데이터와 분포가 일치하는 고품질 합성 데이터를 생성하며, 실험과 온라인 A/B 테스트를 통해 그 효과를 입증했습니다.

LLM 합성 데이터의 혁신: SynAlign 등장
최근 대규모 언어 모델(LLM)의 발전으로 컨텍스트 학습 및 몇 번의 예시만으로 언어 생성 능력이 크게 향상되었습니다. 이러한 발전은 LLM을 활용하여 고품질 합성 데이터를 생성하고, 이를 통해 온라인 검색 시스템이나 성능이 낮은 LLM과 같은 소규모 모델의 성능을 향상시키는 연구를 활발하게 만들었습니다.
하지만 기존의 LLM 기반 합성 데이터는 스타일, 어조, 내용 비율 등 실제 데이터와 중요한 언어적 특징에서 차이를 보이는 경우가 많습니다. 따라서 합성 데이터를 실제 데이터와 직접 혼합하면 원본 데이터 분포가 왜곡되어 성능 향상이 저해될 수 있습니다.
Ren 등(2025) 의 연구는 이러한 문제를 해결하기 위해 SynAlign이라는 새로운 합성 데이터 생성 및 필터링 프레임워크를 제안합니다. SynAlign은 핵심 속성 분포 일치에 기반하여 작동합니다.
SynAlign: 어떻게 작동할까요?
SynAlign은 두 단계로 구성됩니다.
1단계: 효율적인 데이터 다양성 탐색: 먼저 가우시안 프로세스 모델을 활용한 불확실성 추적기를 사용하여 이미 선택된 데이터와 구별되는 데이터 클러스터를 반복적으로 선택합니다. 이러한 데이터 클러스터들은 새로운 데이터 합성을 위한 예시(demonstrations)로 사용되어 실제 데이터의 다양성을 효율적으로 탐색합니다.
2단계: 잠재 속성 추론 및 분포 일치: LLM은 선택된 예시들의 언어적 속성을 요약하고, 이를 바탕으로 새로운 데이터를 합성합니다. 이를 통해 실제 데이터에 나타나는 언어적 속성을 가진 다양한 데이터를 생성할 수 있습니다. 합성 데이터 생성 후에는 최대 평균 이탈(Maximum Mean Discrepancy)을 목적 함수로 사용하여 각 합성 데이터의 샘플링 가중치를 학습합니다. 이를 통해 실제 데이터와의 분포 일치를 보장합니다.
놀라운 결과: 실험과 온라인 A/B 테스트
다양한 텍스트 예측 작업에 대한 실험 결과, SynAlign은 성능을 크게 향상시켰습니다. 뿐만 아니라 온라인 검색 시스템에 대한 온라인 A/B 테스트를 통해 SynAlign의 효과를 실제 환경에서도 입증했습니다.
SynAlign은 LLM 기반 합성 데이터 생성의 새로운 가능성을 제시하며, 향후 다양한 자연어 처리 작업에서 혁신적인 성능 향상을 기대하게 합니다. 이는 단순한 기술적 발전을 넘어, 더욱 정교하고 실용적인 AI 시스템 개발의 초석을 마련한 것으로 평가할 수 있습니다.
Reference
[arxiv] Few-shot LLM Synthetic Data with Distribution Matching
Published: (Updated: )
Author: Jiyuan Ren, Zhaocheng Du, Zhihao Wen, Qinglin Jia, Sunhao Dai, Chuhan Wu, Zhenhua Dong
http://arxiv.org/abs/2502.08661v2