혁신적인 이미지 생성 모델 T2I-R1: 이중 사고 연쇄(CoT)로 한 단계 도약


Dongzhi Jiang 등 연구진이 개발한 T2I-R1은 이중 수준의 사고 연쇄(CoT)와 강화 학습(RL)을 활용한 혁신적인 텍스트-이미지 생성 모델입니다. 의미 수준과 토큰 수준의 CoT를 BiCoT-GRPO 알고리즘으로 효율적으로 조정하여 기존 모델보다 월등한 성능을 달성, T2I-CompBench와 WISE 벤치마크에서 최첨단 모델을 능가했습니다.

related iamge

최근 거대 언어 모델 분야의 눈부신 발전은 사고 연쇄(Chain-of-Thought, CoT)와 강화 학습(Reinforcement Learning, RL) 전략이 성능 향상에 얼마나 효과적인지 보여주었습니다. 하지만 이러한 추론 전략을 시각적 생성 영역에 적용한 연구는 아직 미개척 분야였습니다.

Jiang 등의 연구진은 이러한 한계를 극복하고, T2I-R1이라는 혁신적인 텍스트-이미지 생성 모델을 개발했습니다. T2I-R1은 이중 수준의 CoT 추론 과정을 기반으로 RL을 활용하여 작동합니다. 핵심은 이미지 생성 과정의 두 가지 측면을 각각 다른 수준의 CoT로 다룬다는 점입니다.

  • 의미 수준 CoT: 프롬프트의 고차원 계획 수립에 활용됩니다. 즉, 어떤 이미지를 생성할지에 대한 큰 그림을 그리는 단계입니다.
  • 토큰 수준 CoT: 패치 단위 이미지 생성 과정에서 저차원 픽셀 처리에 사용됩니다. 이는 큰 그림을 세밀하게 채워나가는 단계에 해당합니다.

두 수준의 CoT를 효율적으로 조정하기 위해 연구진은 BiCoT-GRPO라는 새로운 알고리즘을 제안했습니다. BiCoT-GRPO는 여러 생성 보상을 종합적으로 활용하여 단일 학습 단계 내에서 두 CoT를 동시에 최적화합니다. 마치 오케스트라의 지휘자가 여러 악기를 조화롭게 이끄는 것과 같습니다.

기존 모델인 Janus-Pro에 T2I-R1을 적용한 결과는 놀랍습니다. T2I-CompBench에서는 13%, WISE 벤치마크에서는 19%의 성능 향상을 달성하여 최첨단 모델인 FLUX를 뛰어넘는 결과를 보였습니다. 이는 T2I-R1의 우수성을 명확하게 보여주는 증거입니다. 자세한 내용은 GitHub에서 확인할 수 있습니다.

이 연구는 단순히 이미지 생성의 질을 높이는 것을 넘어, 인공지능이 어떻게 복잡한 추론 과정을 통해 창의적인 결과물을 만들어낼 수 있는지 보여주는 중요한 사례입니다. 앞으로 T2I-R1과 같은 혁신적인 모델들이 어떻게 다양한 분야에 적용될지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

Published:  (Updated: )

Author: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li

http://arxiv.org/abs/2505.00703v1