Gen-n-Val: 에이전트 기반 합성 데이터 생성 및 검증의 혁신
황징엔 등 연구진이 개발한 Gen-n-Val은 LLM과 VLLM을 활용한 에이전트 기반 합성 데이터 생성 및 검증 프레임워크로, 기존 방법의 한계를 극복하고 COCO 인스턴스 분할 및 개방형 어휘 객체 탐지에서 뛰어난 성능 향상을 달성했습니다.

최근 대규모 언어 모델(LLM)과 비전 대규모 언어 모델(VLLM)이 다양한 작업에서 에이전트로서 놀라운 성능을 보여주고 있습니다. 하지만 컴퓨터 비전 작업, 특히 객체 탐지와 인스턴스 분할에서는 데이터 부족과 레이블 노이즈가 여전히 큰 문제입니다. 이러한 문제를 해결하기 위한 일반적인 방법은 합성 데이터를 생성하는 것이지만, 기존 방법들은 여러 객체가 하나의 마스크에 포함되거나, 분할이 부정확하거나, 카테고리 레이블이 잘못 지정되는 등의 문제로 효율성이 떨어지는 한계를 가지고 있었습니다.
황징엔(Jing-En Huang) 등 연구진은 이러한 문제를 해결하기 위해 Gen-n-Val이라는 새로운 에이전트 기반 데이터 생성 프레임워크를 제시했습니다. Gen-n-Val은 레이어 확산(LD), LLM, VLLM을 활용하여 고품질의 단일 객체 마스크와 다양한 배경을 생성합니다. Gen-n-Val은 두 개의 에이전트로 구성됩니다.
- LD 프롬프트 에이전트(LLM) : LLM은 LD를 위한 프롬프트를 최적화하여 고품질의 전경 인스턴스 이미지와 분할 마스크를 생성합니다. 이 최적화된 프롬프트는 정확한 인스턴스 마스크와 깨끗한 배경을 가진 단일 객체 합성 데이터 생성을 보장합니다.
- 데이터 검증 에이전트(VLLM) : VLLM은 저품질의 합성 인스턴스 이미지를 걸러냅니다.
두 에이전트의 시스템 프롬프트는 TextGrad를 통해 개선되며, 여러 인스턴스를 장면 내에서 결합하기 위해 이미지 조화 기술을 사용합니다. MosaicFusion과 같은 최첨단 합성 데이터 접근 방식과 비교했을 때, Gen-n-Val은 무효 합성 데이터 비율을 50%에서 7%로 줄였으며, YOLOv9c와 YOLO11m을 사용한 COCO 인스턴스 분할에서 희귀 클래스의 성능을 1% mAP 향상시켰습니다. 또한, YOLO11m을 사용한 개방형 어휘 객체 탐지 벤치마크에서 YOLO-Worldv2-M보다 7.1% mAP의 상당한 향상을 보였습니다. 뿐만 아니라, Gen-n-Val은 인스턴스 분할과 객체 탐지에서 YOLOv9 및 YOLO11 계열의 성능을 향상시켰습니다.
Gen-n-Val은 합성 데이터 생성의 새로운 가능성을 제시하며, 컴퓨터 비전 분야의 발전에 크게 기여할 것으로 기대됩니다. 특히 희귀 클래스에 대한 성능 향상은 실제 응용 분야에서 큰 의미를 가집니다. 하지만, 향후 연구에서는 더욱 다양한 데이터셋과 작업에 대한 성능 평가가 필요하며, 계산 비용 최적화에 대한 연구도 지속되어야 할 것입니다.
Reference
[arxiv] Gen-n-Val: Agentic Image Data Generation and Validation
Published: (Updated: )
Author: Jing-En Huang, I-Sheng Fang, Tzuhsuan Huang, Chih-Yu Wang, Jun-Cheng Chen
http://arxiv.org/abs/2506.04676v1