ProFashion: 다중 참조 이미지 기반의 혁신적인 패션 영상 생성
ProFashion은 다중 참조 이미지를 활용하여 시각 및 시간적 일관성을 향상시킨 패션 영상 생성 프레임워크로, 자세 인식 프로토타입 집계기와 흐름 향상 프로토타입 인스턴스화기를 통해 기존 방법의 한계를 극복하고 MRFashion-7K 및 UBC Fashion 데이터셋에서 우수한 성능을 입증했습니다.

ProFashion: 다중 참조 이미지로 패션 영상 생성의 새로운 지평을 열다
최근 패션 영상 생성 분야는 괄목할 만한 발전을 이루었지만, 기존 확산 기반 방법들은 단일 참조 이미지만을 입력으로 사용하는 한계를 가지고 있었습니다. 이는 특히 의류의 패턴이 다양한 각도에서 다르게 보일 때 시각적으로 일관된 영상 생성에 어려움을 초래했습니다. 또한, 널리 사용되는 모션 모듈은 인체의 움직임을 충분히 모델링하지 못해 시공간적 일관성이 부족하다는 문제점도 존재했습니다.
Kong Xianghao 등 8명의 연구원이 발표한 논문, "ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images"는 이러한 문제점들을 해결하기 위해 혁신적인 프레임워크를 제시합니다. ProFashion은 다중 참조 이미지를 활용하여 시각적 일관성과 시간적 일관성을 향상시키는 패션 영상 생성 프레임워크입니다.
ProFashion의 핵심은 두 가지 혁신적인 모듈에 있습니다. 첫째, 자세 인식 프로토타입 집계기(Pose-aware Prototype Aggregator) 는 계산 비용을 합리적으로 유지하면서 다중 참조 이미지의 특징을 효과적으로 활용합니다. 자세 정보에 따라 전역 및 세부 참조 특징을 선택하고 집계하여 프레임 단위 프로토타입을 생성하는데, 이는 잡음 제거 과정에서 가이드 역할을 합니다. 둘째, 흐름 향상 프로토타입 인스턴스화기(Flow-enhanced Prototype Instantiator) 는 인체 주요 지점의 움직임 흐름을 활용하여 잡음 제거기 내 추가적인 시공간적 주의 과정을 안내함으로써 모션 일관성을 더욱 향상시킵니다.
연구팀은 인터넷에서 수집한 MRFashion-7K 데이터셋을 사용하여 ProFashion의 효과를 광범위하게 평가했습니다. 그 결과, ProFashion은 기존 방법보다 성능이 뛰어나다는 것을 입증했으며, UBC Fashion 데이터셋에서도 우수한 성능을 보였습니다. 이 연구는 다중 참조 이미지 기반의 패션 영상 생성 기술을 한 단계 발전시켰을 뿐 아니라, 시각적 및 시간적 일관성 문제 해결에 새로운 가능성을 제시한다는 점에서 매우 중요한 의미를 가집니다.
결론적으로, ProFashion은 다중 참조 이미지와 혁신적인 모듈을 통해 패션 영상 생성의 질적 향상을 이끌어낸 획기적인 연구 성과로 평가될 수 있습니다. 앞으로 이 기술은 패션 산업뿐만 아니라 다양한 분야에서 영상 생성 기술 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images
Published: (Updated: )
Author: Xianghao Kong, Qiaosong Qi, Yuanbin Wang, Anyi Rao, Biaolong Chen, Aixi Zhang, Si Liu, Hao Jiang
http://arxiv.org/abs/2505.06537v1