TokenMotion: 토큰 분리 기술을 활용한 인간 중심 영상 생성의 새로운 지평
TokenMotion은 공간-시간 토큰과 분리 및 통합 전략을 활용하여 카메라 움직임과 인간 동작을 정교하게 제어하는 인간 중심 비디오 생성 프레임워크입니다. 기존 기술의 한계를 뛰어넘는 성능으로 창의적인 영상 제작 분야에 혁신을 가져올 것으로 기대됩니다.

TokenMotion: 인간 중심 영상 생성의 혁신
그래미 시상식의 화려한 '글램봇' 장면처럼, 카메라 움직임과 인간의 동작을 동시에 제어하는 것은 영상 생성 분야의 오랜 숙제였습니다. 최근 비디오 확산 모델의 발전에도 불구하고, 기존 방식은 제한적인 모션 표현과 카메라 및 인간 모션 제어의 부적절한 통합으로 어려움을 겪었습니다.
하지만 이제, Li Ruineng 박사를 비롯한 연구진이 발표한 TokenMotion이 이러한 난제를 극복할 새로운 가능성을 열었습니다. TokenMotion은 공간-시간 토큰(spatio-temporal tokens) 을 사용하여 카메라 궤적과 인간의 자세를 표현함으로써, 세밀한 수준의 모션 제어를 가능하게 합니다. 이는 마치 마이크로 단위의 정밀한 조작으로 영상을 만들어내는 것과 같습니다.
핵심은 '분리와 통합(decouple-and-fuse)' 전략입니다. 카메라와 인간의 움직임을 개별적으로 모델링한 후, 인간 인식 동적 마스크(human-aware dynamic mask) 를 통해 이들을 효과적으로 통합합니다. 이 마스크는 공간적, 시간적으로 변화하는 결합된 모션 신호의 복잡성을 효과적으로 처리하는 역할을 합니다.
TokenMotion은 텍스트-비디오 및 이미지-비디오 변환 모두에서 뛰어난 성능을 보여주었습니다. 다양한 실험 결과, 기존 최첨단 방법들을 꾸준히 능가하는 성능을 입증하며, 인간 중심 모션 제어 분야의 새로운 기준을 제시했습니다.
이는 단순한 기술적 진보를 넘어, 광고, 영화, 게임 등 창의적인 영상 제작 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. TokenMotion은 더욱 자유롭고 정교한 영상 제작을 가능하게 하여, 우리의 상상력을 현실로 만들어주는 강력한 도구가 될 것입니다. 앞으로 TokenMotion을 기반으로 한 다양한 응용 연구가 기대됩니다. 특히, 실시간 영상 생성 및 상호작용 기술과의 결합을 통해 더욱 흥미로운 결과들이 도출될 것으로 예상됩니다.
Reference
[arxiv] TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
Published: (Updated: )
Author: Ruineng Li, Daitao Xing, Huiming Sun, Yuanzhou Ha, Jinglin Shen, Chiuman Ho
http://arxiv.org/abs/2504.08181v1