딥페이션 데이터셋 기반 실시간 인물 이미지 합성 모델 개발 성공!
정지우, 김기록, 김우주, 김남준 연구팀이 흐름 일치(Flow Matching) 기반의 실시간 인물 이미지 합성 모델 RPFM을 개발하여 DeepFashion 데이터셋을 통해 실시간 성능과 우수한 이미지 품질을 동시에 달성했습니다. 이는 수어 영상 생성, AR/VR 등 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

실시간 인물 이미지 합성: 속도와 정확성의 완벽한 조화
수어 영상 생성, AR/VR, 게임, 라이브 스트리밍 등 다양한 분야에서 실시간 인물 이미지 합성(PGPIS) 기술의 중요성이 날로 커지고 있습니다. 하지만, 역동적인 인간의 자세를 고려하여 고품질 이미지를 실시간으로 생성하는 것은 쉽지 않은 과제였습니다. 기존의 diffusion-based 모델은 이미지 품질은 뛰어나지만, 느린 처리 속도 때문에 실시간 응용에는 적합하지 않았습니다. 특히 라이브 방송 중 수어 영상 생성처럼 빠른 이미지 업데이트가 필요한 상황에서는 더욱 그렇습니다.
흐름 일치(Flow Matching) 기반의 혁신적인 해결책
정지우, 김기록, 김우주, 김남준 연구팀은 이러한 문제를 해결하기 위해 흐름 일치(Flow Matching, FM) 기반의 새로운 생성 모델을 제안했습니다. 이 모델은 더 빠르고 안정적이며 효율적인 학습과 샘플링을 가능하게 합니다. 또한, 조건부 생성을 지원하며 잠재 공간에서 동작하여 속도와 품질 모두를 중요하게 생각하는 실시간 PGPIS 애플리케이션에 특히 적합합니다. 연구팀은 이 모델을 RPFM (Real-Time Person Image Synthesis Using a Flow Matching Model) 이라고 명명했습니다.
DeepFashion 데이터셋으로 검증된 성능
RPFM 모델의 성능은 PGPIS 작업에 널리 사용되는 DeepFashion 데이터셋을 사용하여 평가되었습니다. 그 결과, RPFM은 최첨단 모델과 비교할 만한 성능을 유지하면서 거의 실시간에 가까운 샘플링 속도를 달성했습니다. 생성 이미지 정확도가 약간 낮아지는 것을 감수하는 대신, 생성 속도를 두 배 이상 향상시켜 실시간 성능을 보장하는 데 성공한 것입니다. 이는 속도와 정확성 사이의 최적의 균형을 찾은 훌륭한 성과입니다.
미래를 향한 발걸음
RPFM 모델의 개발은 실시간 상호 작용 시스템의 발전에 크게 기여할 것으로 예상됩니다. 앞으로 더욱 발전된 실시간 이미지 합성 기술을 통해 우리는 더욱 풍부하고 현실감 넘치는 디지털 경험을 누릴 수 있게 될 것입니다. 이 연구는 단순한 기술적 진보를 넘어, 실시간으로 소통하고 상호 작용하는 미래 사회를 향한 중요한 발걸음입니다.
Reference
[arxiv] Real-Time Person Image Synthesis Using a Flow Matching Model
Published: (Updated: )
Author: Jiwoo Jeong, Kirok Kim, Wooju Kim, Nam-Joon Kim
http://arxiv.org/abs/2505.03562v1