AsynFusion: 비동기식 잠재 일관성 모델을 활용한 전신 오디오 기반 아바타 생성의 혁신
8명의 연구진이 개발한 AsynFusion은 확산 트랜스포머 기반의 새로운 프레임워크로, 비동기 처리와 협력 동기화 모듈을 통해 실시간 고품질 전신 오디오 기반 아바타 애니메이션 생성을 가능하게 합니다. 기존 기술의 한계를 극복하고, 가상현실 등 다양한 분야에 혁신적인 가능성을 제시합니다.

AsynFusion: 실시간 전신 애니메이션의 새로운 지평을 열다
가상현실, 디지털 엔터테인먼트, 원격 통신 등 다양한 분야에서 실감나는 디지털 휴먼 생성은 중요한 과제입니다. 특히 오디오 기반 전신 아바타 생성은 이러한 흐름의 핵심 기술 중 하나입니다. 하지만 기존 방법들은 얼굴 표정과 제스처를 개별적으로 생성하여, 자연스럽고 조화로운 애니메이션을 만드는 데 어려움을 겪었습니다.
장, 조, 리, 주, 후, 판, 우, 리 등 8명의 연구진은 이러한 문제를 해결하기 위해 AsynFusion이라는 혁신적인 프레임워크를 제안했습니다. AsynFusion은 확산 트랜스포머(diffusion transformers) 를 기반으로 얼굴 표정과 제스처를 동시에 생성하여, 기존의 한계를 극복합니다.
AsynFusion의 핵심은 다음과 같습니다.
- 이중 분기 DiT 아키텍처: 얼굴 표정과 제스처를 병렬적으로 생성하여 처리 속도를 향상시킵니다.
- 협력 동기화 모듈: 두 모달리티(얼굴 표정과 제스처) 간의 상호 작용을 강화하여, 조화로운 애니메이션을 생성합니다. 얼굴 표정과 몸짓이 서로 어색하지 않고 자연스럽게 연결되도록 돕는 셈이죠.
- 비동기 LCM 샘플링 전략: 연산 부하를 줄이면서도 고품질 결과를 유지합니다. 실시간 처리에 중요한 요소입니다.
연구진은 다양한 실험을 통해 AsynFusion이 기존 방법보다 우수한 성능을 보임을 확인했습니다. 실시간으로 동기화된 고품질의 전신 애니메이션 생성이 가능해졌다는 의미입니다. 정량적, 정성적 평가 모두에서 최첨단 성능을 달성했다고 합니다.
AsynFusion은 단순한 기술적 발전을 넘어, 더욱 자연스럽고 몰입감 높은 가상 환경을 구축하는 데 기여할 것으로 기대됩니다. 앞으로 가상현실, 게임, 메타버스 등 다양한 분야에서 폭넓게 활용될 것으로 예상됩니다. 이 연구는 실시간 상호 작용이 중요한 애플리케이션에서 혁신적인 가능성을 제시합니다. 뿐만 아니라, 향후 오디오-비주얼 상호작용 기술 발전에 중요한 이정표를 세웠다고 평가할 수 있습니다.
Reference
[arxiv] AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars
Published: (Updated: )
Author: Tianbao Zhang, Jian Zhao, Yuer Li, Zheng Zhu, Ping Hu, Zhaoxin Fan, Wenjun Wu, Xuelong Li
http://arxiv.org/abs/2505.15058v1