ReCoM: 재현성 높은 음성 동작 생성의 혁신
ReCoM은 음성에 동기화된 고품질 인체 동작 생성을 위한 혁신적인 AI 모델입니다. RET와 DER, IRI 전략을 통해 기존 기술의 한계를 극복하고, 86.7% 향상된 사실성을 달성했습니다. 다양한 분야에 혁신을 가져올 잠재력을 지닌 주목할 만한 기술입니다.

ReCoM: 음성과 완벽히 동기화된 고품질 인체 동작 생성
최근, 셰 용(Yong Xie) 등 연구진이 발표한 ReCoM(Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer)은 AI 기반 동작 생성 분야에 새로운 지평을 열었습니다. ReCoM은 음성에 완벽히 동기화된, 매우 사실적이고 일반화 가능한 인체 동작을 생성하는 효율적인 프레임워크입니다. 핵심은 반복적 임베디드 트랜스포머(RET) 에 있습니다. RET는 비전 트랜스포머(ViT)의 핵심 아키텍처에 동적 임베딩 정규화(DER) 를 통합하여 공동 발화 동작의 역학을 명시적으로 모델링합니다. 이를 통해 공간-시간적 의존성을 효과적으로 모델링하여 일관된 동작 합성을 통해 제스처의 자연스러움과 정확성을 향상시키는 겁니다.
ReCoM의 혁신적인 두 가지 전략
ReCoM의 놀라운 성능은 두 가지 혁신적인 전략에서 비롯됩니다.
- 동적 임베딩 정규화(DER): 모델의 잡음 저항성과 도메인 간 일반화 능력을 향상시켜, 본 적 없는 음성 입력에 대해서도 자연스럽고 매끄러운 제로샷 동작 생성을 가능하게 합니다.
- 반복적 재구성 추론(IRI): 오토리그레시브 추론의 고질적인 문제인 오류 축적과 자체 수정의 제한을 해결하기 위한 전략입니다. IRI는 두 가지 핵심 구성 요소를 통해 동작 시퀀스를 반복적으로 정제합니다. 첫째, 분류기 없는 가이드(classifier-free guidance) 는 보조적인 감독 없이 생성된 제스처와 실제 제스처 간의 분포 정렬을 개선합니다. 둘째, 시간적 평활화 과정은 급격한 프레임 간 전이를 제거하는 동시에 운동학적 연속성을 보장합니다.
ReCoM의 놀라운 성과
벤치마크 데이터셋을 이용한 광범위한 실험 결과, ReCoM은 탁월한 성능을 입증했습니다. 특히, 프레셰 제스처 거리(FGD) 를 18.70에서 2.48로 감소시켜 86.7%의 향상을 보였습니다. 이는 ReCoM이 얼마나 사실적인 동작을 생성하는지 명확하게 보여줍니다. (프로젝트 페이지: https://yong-xie-xy.github.io/ReCoM/)
ReCoM은 단순히 기술적인 발전을 넘어, AI 기반 애니메이션, 가상현실, 인간-컴퓨터 상호작용 등 다양한 분야에 혁신적인 변화를 가져올 잠재력을 가지고 있습니다. 향후 ReCoM이 어떻게 발전하고 활용될지 주목할 만합니다.
Reference
[arxiv] ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer
Published: (Updated: )
Author: Yong Xie, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang
http://arxiv.org/abs/2503.21847v1