혁신적인 AI 모델 Flow-GRPO: 텍스트-이미지 생성의 새로운 지평을 열다
Flow-GRPO는 온라인 강화학습을 활용하여 텍스트-이미지 생성 모델의 정확도와 효율성을 비약적으로 향상시킨 혁신적인 모델입니다. ODE-to-SDE 변환 및 잡음 제거 감소 전략을 통해 GenEval 및 시각적 텍스트 렌더링 정확도를 크게 높였으며, 인간 선호도 정렬에서도 뛰어난 성능을 보였습니다.

중국 연구진(Jie Liu, Gongye Liu 외)이 발표한 획기적인 논문이 AI 분야에 큰 파장을 일으키고 있습니다. 바로 Flow-GRPO입니다. 이 모델은 온라인 강화학습(RL)을 흐름 일치 모델에 통합한 최초의 시도로, 텍스트-이미지 생성의 정확도와 효율성을 비약적으로 향상시켰다는 평가를 받고 있습니다.
Flow-GRPO의 핵심은 두 가지 전략에 있습니다. 첫째, ODE-to-SDE 변환입니다. 기존의 결정론적 상미분 방정식(ODE)을 확률적 미분 방정식(SDE)으로 변환하여 모든 시간 단계에서 원래 모델의 한계 분포와 일치하도록 합니다. 이를 통해 RL 탐색을 위한 통계적 샘플링이 가능해집니다. 둘째, 잡음 제거 감소 전략입니다. 훈련 잡음 제거 단계를 줄이면서 원래 추론 시간 단계 수는 유지하여 샘플링 효율을 크게 향상시키고 성능 저하를 방지합니다.
실험 결과는 놀랍습니다. 여러 텍스트-이미지 작업에서 Flow-GRPO는 압도적인 성능을 보였습니다. 복잡한 구성의 경우, RL로 조정된 SD3.5는 거의 완벽한 개체 수, 공간 관계, 세밀한 속성을 생성하여 GenEval 정확도를 63%에서 **95%**로 끌어올렸습니다. 시각적 텍스트 렌더링에서도 정확도가 59%에서 **92%**로 크게 향상되었습니다. 뿐만 아니라, 인간 선호도 정렬에서도 상당한 개선을 보였으며, 놀랍게도 보상 해킹(reward hacking) 현상은 거의 발생하지 않았습니다. 즉, 보상이 증가하면서 이미지 품질이나 다양성이 저하되는 현상이 거의 없었다는 의미입니다.
Flow-GRPO는 단순한 성능 향상을 넘어, 텍스트-이미지 생성 모델의 새로운 가능성을 열었습니다. 보다 정확하고, 효율적이며, 인간의 선호도에 더 잘 부합하는 이미지 생성을 가능하게 함으로써, AI 이미지 생성 기술의 발전에 중요한 이정표를 세웠다고 볼 수 있습니다. 향후 Flow-GRPO가 다양한 분야에 어떻게 적용될지, 그리고 어떤 혁신을 가져올지 기대됩니다.
Reference
[arxiv] Flow-GRPO: Training Flow Matching Models via Online RL
Published: (Updated: )
Author: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
http://arxiv.org/abs/2505.05470v2