이산 확산 모델의 선호도 기반 정렬: D2-DPO의 등장
Umberto Borso 등 연구진이 개발한 D2-DPO는 선호도 데이터만으로 이산 확산 모델을 미세 조정하는 새로운 방법으로, 기존 강화 학습 방식의 한계를 극복하고 다양한 응용 분야에 적용될 잠재력을 지닌 획기적인 연구 결과입니다.

최근 몇 년간 괄목할 만한 성과를 보인 확산 모델은 이제 이산 데이터에도 적용되면서 여러 분야에서 최첨단 성능을 달성하고 있습니다. 하지만 특정 작업에 대한 선호도를 모델에 반영하는 것은 여전히 어려운 과제였습니다. 특히 명확한 보상 함수를 얻기 어려운 경우에는 더욱 그러했습니다.
이러한 문제를 해결하기 위해 Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel 등 연구자들은 획기적인 연구 결과를 발표했습니다. 바로 D2-DPO (Discrete Diffusion DPO) 입니다. D2-DPO는 연속 시간 마르코프 체인으로 표현되는 이산 확산 모델에 직접 선호도 최적화 (DPO)를 최초로 적용한 방법입니다.
D2-DPO의 핵심은 참조 분포에 대한 충실도를 유지하면서 선호도 데이터를 사용하여 생성 과정을 직접 미세 조정하는 새로운 손실 함수를 도출했다는 점입니다. 이는 기존의 강화 학습 기반 접근 방식과 달리 명시적인 보상 모델 없이도 제어된 미세 조정을 가능하게 합니다. 연구팀은 구조화된 이진 시퀀스 생성 작업에서 D2-DPO를 검증하여, 이 방법이 선호도에 맞춰 모델 출력을 효과적으로 정렬하면서 구조적 유효성을 유지함을 입증했습니다.
연구 결과는 D2-DPO가 강화 학습 기반 접근 방식에 대한 실용적인 대안임을 보여줍니다. 연구팀은 향후 연구에서 언어 모델링과 단백질 서열 생성을 포함한 더 복잡한 생성 작업으로 D2-DPO를 확장하고, 다양한 응용 분야에서 유연성을 높이기 위해 균일 노이즈 스케줄과 같은 대안적인 노이즈 스케줄을 조사할 계획이라고 밝혔습니다.
이 연구는 이산 확산 모델의 활용 가능성을 넓히는 중요한 발걸음이며, 인공지능 분야의 발전에 크게 기여할 것으로 기대됩니다. 특히 명확한 보상 함수를 정의하기 어려운 복잡한 문제에 대한 새로운 해결책을 제시했다는 점에서 그 의미가 매우 크다고 할 수 있습니다. 앞으로 D2-DPO가 어떻게 발전하고 다양한 분야에 적용될지 주목할 만합니다.
Reference
[arxiv] Preference-Based Alignment of Discrete Diffusion Models
Published: (Updated: )
Author: Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel
http://arxiv.org/abs/2503.08295v2