ComfyGPT: ComfyUI 워크플로우 생성의 혁신
ComfyGPT는 사용자 설명을 기반으로 ComfyUI 워크플로우를 자동 생성하는 최초의 자기 최적화 다중 에이전트 시스템입니다. 개별 노드 연결 및 SFT/RL 기반 FlowAgent를 통해 정확도를 높였고, FlowDataset과 FlowBench, 새로운 평가 지표를 제시하여 성능을 객관적으로 평가했습니다.

ComfyGPT: AI가 ComfyUI 워크플로우를 자동으로 생성하다!
이미지 생성 분야에서 널리 사용되는 ComfyUI는 직관적인 노드 기반 아키텍처를 제공하지만, 복잡한 노드 연결과 다양한 모듈로 인해 사용자 학습 곡선이 가파른 것이 현실입니다. 이 문제를 해결하기 위해 중국 연구팀이 개발한 ComfyGPT는 사용자의 설명만으로 ComfyUI 워크플로우를 자동으로 생성하는 획기적인 시스템입니다. 🎉
ComfyGPT의 핵심 혁신
ComfyGPT는 ReformatAgent, FlowAgent, RefineAgent, ExecuteAgent 네 가지 전문 에이전트로 구성됩니다. 기존의 전체 워크플로우 생성 방식과 달리 ComfyGPT는 개별 노드 연결에 초점을 맞춰 생성 정확도를 비약적으로 향상시켰습니다. 이는 마치 레고 블록을 하나씩 조립하는 것처럼 세밀하게 워크플로우를 구성하는 방식이라고 볼 수 있습니다. 🧱
특히, LLM(Large Language Model) 기반의 FlowAgent는 감독적 미세 조정(SFT) 과 강화 학습(RL) 을 결합하여 워크플로우 생성 정확도를 더욱 높였습니다. 이는 AI가 스스로 학습하고 개선하는 자기 최적화 시스템을 구축한 훌륭한 사례입니다. 🧠
객관적인 평가를 위한 새로운 기준
연구팀은 ComfyGPT의 성능을 객관적으로 평가하기 위해 13,571개의 워크플로우-설명 쌍으로 구성된 대규모 데이터셋 FlowDataset과 워크플로우 생성 시스템 평가를 위한 종합적인 벤치마크 FlowBench를 새롭게 제시했습니다. 또한, Format Validation (FV), Pass Accuracy (PA), Pass Instruct Alignment (PIA), Pass Node Diversity (PND) 등 네 가지 새로운 평가 지표를 제안하여 기존 LLM 기반 방법보다 ComfyGPT의 우수성을 입증했습니다. 📊
결론
ComfyGPT는 ComfyUI 사용자들에게 획기적인 편의성을 제공하며, 이미지 생성 분야의 AI 기술 발전에 크게 기여할 것으로 기대됩니다. 개별 노드 연결에 대한 집중, SFT와 RL의 결합, 그리고 객관적인 평가 기준의 제시는 ComfyGPT의 뛰어난 성능을 보여주는 중요한 요소입니다. 앞으로 ComfyGPT가 어떻게 발전하고 활용될지 기대하며 지켜볼 필요가 있습니다. ✨
Reference
[arxiv] ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation
Published: (Updated: )
Author: Oucheng Huang, Yuhang Ma, Zeng Zhao, Mingrui Wu, Jiayi Ji, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun, Rongrong Ji
http://arxiv.org/abs/2503.17671v1