딥러닝 모델의 자기 개선: 그룹 선호도 최적화(GPO)의 등장
중국 연구진이 개발한 그룹 선호도 최적화(GPO)는 텍스트-이미지 확산 모델의 자기 개선을 위한 혁신적인 방법으로, 기존 DPO의 한계를 극복하고 외부 데이터 없이 모델 자체 학습을 통해 성능을 향상시킵니다. Stable Diffusion 3.5 Medium에 적용한 결과, 정확도가 20% 향상되었으며, 플러그 앤 플레이 방식으로 다른 모델에도 적용 가능합니다.

텍스트-이미지(T2I) 확산 모델의 성능 향상을 위한 새로운 방법이 등장했습니다! 중국 연구진(Renjie Chen 외)이 개발한 그룹 선호도 최적화(Group Preference Optimization, GPO) 는 기존의 직접 선호도 최적화(DPO) 방식의 한계를 뛰어넘는 혁신적인 기술입니다.
기존 DPO는 이미지 쌍의 상대적 순위만을 고려하여 학습하지만, 선호도 차이가 미미한 경우 잘못된 평가를 내릴 수 있다는 문제점을 가지고 있었습니다. 마치 미세한 차이를 감지하지 못하는 저울과 같았죠. 또한, 고품질 데이터 수집 및 주석 작업이 필요하다는 어려움도 있었습니다.
GPO는 이러한 문제를 해결하기 위해 그룹 단위 비교와 보상 표준화를 도입했습니다. 여러 이미지를 동시에 비교하여 선호도를 평가함으로써, 미세한 차이로 인한 오류를 줄이고 더욱 정확한 학습을 가능하게 합니다. 마치 여러 명의 심사위원의 평가를 종합하는 것과 같습니다. 그리고 보상 표준화를 통해 각 이미지의 중요도를 조정하여 학습 효율을 높였습니다.
가장 놀라운 점은 GPO가 외부 데이터 없이 모델 자체의 능력을 활용하여 자기 개선을 이룬다는 것입니다. 마치 스스로 공부하고 성장하는 인공지능과 같습니다. 실제로, YOLO와 OCR과 같은 컴퓨터 비전 모델과 결합하여 Stable Diffusion 3.5 Medium에 적용한 결과, 정확한 개수 세기 및 텍스트 렌더링 성능이 무려 20%나 향상되는 놀라운 결과를 얻었습니다. 더욱이, 추론 과정에 추가적인 오버헤드가 없다는 점은 실용적인 측면에서 매우 큰 장점입니다.
GPO는 단순한 성능 개선을 넘어, 인공지능 모델의 자기 학습 및 발전 가능성을 보여주는 중요한 사례입니다. 앞으로 다양한 분야에서 인공지능 모델의 성능 향상에 크게 기여할 것으로 기대됩니다. 이 연구는 플러그 앤 플레이 방식으로, 다른 모델에도 손쉽게 적용할 수 있다는 점에서 더욱 주목할 만합니다.
Reference
[arxiv] Towards Self-Improvement of Diffusion Models via Group Preference Optimization
Published: (Updated: )
Author: Renjie Chen, Wenfeng Lin, Yichen Zhang, Jiangchuan Wei, Boyuan Liu, Chao Feng, Jiao Ran, Mingyu Guo
http://arxiv.org/abs/2505.11070v1