GENMO: 인간 동작을 위한 범용 모델의 탄생!


GENMO는 인간 동작 추정과 생성을 단일 모델로 통합한 혁신적인 AI 모델입니다. 추정을 제약된 생성으로 재구성하여 정확성과 다양성을 동시에 달성하며, 다양한 조건과 가변 길이 동작을 처리하는 유연성을 제공합니다. 이는 게임, 애니메이션, 로봇 공학 등 다양한 분야에 혁신적인 가능성을 제시합니다.

related iamge

인공지능이 인간의 움직임을 이해하다: GENMO의 놀라운 가능성

인간의 움직임을 모델링하는 것은 늘 어려운 숙제였습니다. 기존의 방법들은 동작 생성과 추정을 별개의 작업으로 나누어, 각각 특화된 모델을 사용해 왔습니다. 텍스트, 오디오, 키프레임 등으로부터 다양하고 사실적인 움직임을 생성하는 모델이 있는가 하면, 비디오와 같은 관측값으로부터 정확한 움직임 궤적을 재구성하는 모델도 존재했죠. 하지만 이러한 분리는 시간적 역학 및 운동학의 근본적인 표현을 공유함에도 불구하고, 작업 간의 지식 전이를 제한하고 별도의 모델 유지를 필요로 했습니다.

그런 한계를 뛰어넘는 혁신적인 모델이 등장했습니다. 바로 GENMO(GENeralist Model for Human MOtion)입니다!

Li Jiefeng 등 연구진이 개발한 GENMO는 동작 추정과 생성을 단일 프레임워크로 통합한 범용 모델입니다. 핵심 아이디어는 동작 추정을 제약된 동작 생성으로 재구성하는 것입니다. 즉, 출력 동작이 관찰된 조건 신호를 정확하게 만족해야 한다는 조건을 부여하는 것이죠. 회귀와 확산(diffusion)의 시너지를 활용하여 GENMO는 정확한 전반적인 동작 추정과 다양한 동작 생성을 동시에 달성합니다.

뿐만 아니라, 2D 주석과 텍스트 설명이 있는 현실 세계 비디오를 활용한 추정 기반 학습 목표를 도입하여 생성 다양성을 향상시켰습니다. 더 나아가, 가변 길이 동작과 서로 다른 시간 간격에서의 혼합 다중 모드 조건(텍스트, 오디오, 비디오)을 처리하는 새로운 아키텍처를 통해 유연한 제어를 제공합니다. 이 통합된 접근 방식은 상승 효과를 창출합니다. 즉, 생성적 사전 정보는 폐색과 같은 어려운 조건에서 추정된 동작을 개선하고, 다양한 비디오 데이터는 생성 능력을 향상시키는 것입니다.

광범위한 실험을 통해 GENMO가 단일 모델 내에서 여러 인간 동작 작업을 성공적으로 처리하는 범용 프레임워크로서의 효과를 입증했습니다. GENMO는 단순한 기술적 발전을 넘어, 인공지능이 인간의 움직임을 얼마나 정교하게 이해하고 생성할 수 있는지를 보여주는 중요한 이정표가 될 것입니다. 앞으로 GENMO가 다양한 분야에서 어떻게 활용될지, 그리고 어떤 혁신을 가져올지 기대됩니다. 특히 게임, 애니메이션, 로봇 공학 등에서의 활용 가능성은 무궁무진합니다.

GENMO: 단순한 기술이 아닌, 새로운 가능성의 시작입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GENMO: A GENeralist Model for Human MOtion

Published:  (Updated: )

Author: Jiefeng Li, Jinkun Cao, Haotian Zhang, Davis Rempe, Jan Kautz, Umar Iqbal, Ye Yuan

http://arxiv.org/abs/2505.01425v1