DiffusionTalker: 효율적이고 압축적인 음성 구동 3D 토킹 헤드
Peng Chen 등 연구진이 개발한 DiffusionTalker는 개인화된 증류 기법을 통해 음성 구동 3D 입체 얼굴 애니메이션의 개인화, 효율성, 압축성 문제를 해결한 획기적인 모델입니다. 대조적 개인화 장치와 반복적 증류를 통해 추론 속도를 8배 이상 향상시키고 모델 크기를 86.4% 감소시켰으며, GitHub에서 공개된 코드를 통해 누구나 활용 가능합니다.

꿈꿔왔던 3D 입체 얼굴 애니메이션, 이제 현실로! DiffusionTalker의 놀라운 기술
최근, 실시간 음성 기반 3D 얼굴 애니메이션 기술이 학계와 산업계 모두에서 뜨거운 관심을 받고 있습니다. 기존의 방법들은 음성과 애니메이션 간의 결정적 매핑 학습에 초점을 맞췄지만, Peng Chen 등 연구진이 개발한 DiffusionTalker는 한 단계 더 나아갑니다.
DiffusionTalker는 음성 구동 3D 얼굴 애니메이션의 비결정적 특성을 고려하여 확산 모델을 활용합니다. 기존 확산 모델 기반 방법들이 애니메이션의 다양성을 향상시켰지만, 정확한 입모양과 개인화된 화법 스타일을 표현하는 데는 여전히 한계가 있었습니다. 또한, 효율성과 압축성도 개선의 여지가 많았죠.
DiffusionTalker의 핵심은 바로 '개인화된 증류(personalizer-guided distillation)' 입니다. 연구진은 대조적 개인화 장치(contrastive personalizer) 를 도입하여 음성으로부터 정체성과 감정 임베딩을 학습, 개인의 화법 스타일을 정확하게 포착합니다. 증류 과정에서 개인화 강화 장치(personalizer enhancer) 를 추가하여 임베딩이 얼굴 애니메이션에 미치는 영향을 더욱 강화합니다. 이는 마치 배우의 특징적인 말투까지 완벽하게 재현하는 것과 같습니다.
효율성을 위해 반복적 증류(iterative distillation) 기법을 사용하여 애니메이션 생성에 필요한 단계를 줄였습니다. 그 결과, 추론 속도가 무려 8배 이상 빨라졌습니다! 압축성 또한 놀랍습니다. 대규모 모델을 소형 모델로 증류하여 모델 크기를 86.4%나 감소시켰으면서도 성능 저하는 최소화했습니다. 이제 더 작은 저장 공간으로도 개인 맞춤형 애니메이션을 만들 수 있습니다.
증류 후에는 사용자가 음성으로부터 정체성 및 감정 임베딩을 추출하여 특정 화법 스타일을 반영하는 개인화된 애니메이션을 빠르게 생성할 수 있습니다. 광범위한 실험을 통해 DiffusionTalker가 최첨단 방법들을 능가하는 성능을 보임을 확인했습니다. GitHub (https://github.com/ChenVoid/DiffusionTalker)에서 코드를 확인할 수 있습니다.
결론적으로 DiffusionTalker는 실시간 음성 기반 3D 얼굴 애니메이션 기술의 새로운 지평을 열었습니다. 개인화, 효율성, 압축성이라는 세 마리 토끼를 모두 잡은 이 기술은 앞으로 게임, 영화, 가상현실 등 다양한 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다.
Reference
[arxiv] DiffusionTalker: Efficient and Compact Speech-Driven 3D Talking Head via Personalizer-Guided Distillation
Published: (Updated: )
Author: Peng Chen, Xiaobao Wei, Ming Lu, Hui Chen, Feng Tian
http://arxiv.org/abs/2503.18159v1