혁신적인 AI 모델 UniHM: 실내 환경에서의 인간 동작 생성의 새로운 지평을 열다


UniHM은 복잡한 실내 환경에서의 인간 동작 생성에 새로운 기준을 제시하는 혁신적인 AI 모델입니다. 혼합 모션 표현, LFQ-VAE, 강화된 Lingo 데이터셋을 통해 Text-to-Motion 및 Text-to-HOI에서 우수한 성능을 달성했습니다. 게임, 애니메이션, 로봇 공학 등 다양한 분야에 긍정적인 영향을 미칠 것으로 기대됩니다.

related iamge

인공지능(AI) 분야에서 인간 동작 생성은 꾸준히 발전해왔지만, 복잡한 실내 환경에서의 자연스러운 동작 생성은 여전히 큰 과제로 남아있습니다. 기존 모델들은 정적인 환경, 움직이는 물체, 자연어 프롬프트, 공간 경로 등 다양한 요소를 통합하는 데 어려움을 겪어왔습니다. 하지만 최근, Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Mian 등의 연구진이 발표한 UniHM 모델은 이러한 한계를 극복하는 획기적인 시도를 보여줍니다.

UniHM은 확산 기반 생성을 활용하여 장면을 인식하는 인간 동작을 합성하는 통합 모션 언어 모델입니다. Text-to-Motion 뿐만 아니라 Text-to-Human-Object Interaction (HOI)까지 지원하는 최초의 프레임워크라는 점에서 큰 의미를 지닙니다.

UniHM의 핵심적인 기여는 다음과 같습니다.

  • 혼합 모션 표현: 연속적인 6DoF 모션과 불연속적인 로컬 모션 토큰을 융합하여 모션의 사실성을 높였습니다. 이는 기존 모델에서 발생할 수 있는 정보 손실을 최소화하고 3D 인간 움직임의 연속적이고 맥락 의존적인 특성을 포착하는 데 도움이 됩니다.
  • 혁신적인 LFQ-VAE: 기존 VQ-VAE의 재구성 정확도와 생성 성능을 뛰어넘는 Look-Up-Free Quantization VAE (LFQ-VAE)를 도입했습니다. 더욱 정교하고 효율적인 모션 생성을 가능하게 합니다.
  • 강화된 Lingo 데이터셋: HumanML3D 어노테이션으로 확장된 Lingo 데이터셋을 사용하여 장면 특정 모션 학습에 대한 강력한 지도 학습을 제공합니다. 더욱 다양하고 현실적인 데이터를 기반으로 학습하여 모델의 성능을 향상시켰습니다.

실험 결과, UniHM은 OMOMO 벤치마크에서 Text-to-HOI 합성에 대한 비교적 우수한 성능을 보였으며, HumanML3D에서는 일반적인 텍스트 조건부 모션 생성에서도 경쟁력 있는 결과를 얻었습니다. 이는 UniHM이 복잡한 실내 환경에서의 인간 동작 생성에 대한 새로운 가능성을 제시한다는 것을 의미합니다.

UniHM의 등장은 게임, 애니메이션, 로봇 공학 등 다양한 분야에 긍정적인 영향을 미칠 것으로 예상됩니다. 더욱 자연스럽고 현실적인 인간 동작 생성 기술은 더욱 몰입감 있고 상호 작용적인 경험을 제공할 수 있기 때문입니다. 하지만 향후 연구에서는 더욱 다양한 환경과 상황에 대한 적용성을 높이는 연구가 필요할 것으로 보입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes

Published:  (Updated: )

Author: Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Mian

http://arxiv.org/abs/2505.12774v1