GoT-R1: 강화 학습으로 시각적 생성의 추론 능력을 혁신하다!


GoT-R1은 강화 학습을 통해 MLLM의 추론 능력을 시각적 생성에 활용하여 복잡한 프롬프트 처리 능력을 향상시킨 혁신적인 프레임워크입니다. T2I-CompBench 벤치마크에서 우수한 성능을 보이며, 향후 다양한 분야에 혁신적인 가능성을 제시합니다.

related iamge

텍스트 프롬프트로 사실적인 이미지를 생성하는 시각적 생성 모델이 눈부신 발전을 이루었지만, 정확한 공간적 관계와 속성을 가진 여러 개체를 지정하는 복잡한 프롬프트에는 여전히 어려움을 겪고 있습니다. 이러한 프롬프트를 효과적으로 처리하려면 의미적 내용과 공간적 레이아웃에 대한 명시적인 추론이 필요합니다.

Chengqi Duan 등 8명의 연구원이 발표한 논문에서 소개된 GoT-R1은 이러한 문제에 대한 혁신적인 해결책을 제시합니다. GoT-R1은 강화 학습을 활용하여 시각적 생성에서 의미-공간 추론을 향상시키는 프레임워크입니다. Generation Chain-of-Thought 접근 방식을 기반으로, GoT-R1은 신중하게 설계된 강화 학습을 통해 사전 정의된 템플릿을 넘어 모델이 스스로 효과적인 추론 전략을 발견할 수 있도록 합니다.

핵심은 이중 단계 다차원 보상 체계입니다. 이 체계는 MLLM(거대 언어 모델)을 활용하여 추론 과정과 최종 결과물을 모두 평가함으로써, 시각적 생성 파이프라인 전체에 걸쳐 효과적인 감독을 제공합니다. 보상 시스템은 의미적 정합성, 공간적 정확성, 시각적 품질을 통합적으로 평가합니다.

실험 결과는 T2I-CompBench 벤치마크에서 특히 정확한 공간적 관계와 속성 바인딩이 포함된 복합적인 작업에서 상당한 성능 향상을 보여주었습니다. GoT-R1은 정교한 추론 능력을 시각적 생성 영역으로 성공적으로 전이시킴으로써 이미지 생성 분야의 최첨단 기술을 발전시켰습니다. 더 나아가, 연구팀은 향후 연구를 위해 코드와 사전 훈련된 모델을 공개적으로 제공하고 있습니다 (https://github.com/gogoduan/GoT-R1).

GoT-R1은 단순히 이미지를 생성하는 것을 넘어, 복잡한 추론 능력을 요구하는 시각적 생성 분야에 새로운 지평을 열었습니다. 이는 자율주행, 의료 영상 분석 등 다양한 분야에 혁신적인 가능성을 제시합니다. 앞으로 GoT-R1이 어떻게 발전하고 활용될지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Published:  (Updated: )

Author: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

http://arxiv.org/abs/2505.17022v1