인간 중심 환경을 위한 혁신: 휴머노이드 로봇의 새로운 지평을 여는 'HWM'
Muhammad Qasim Ali 등이 개발한 Humanoid World Models (HWM)은 경량화된 오픈소스 비디오 기반 모델로, 휴머노이드 로봇의 행동 결과를 예측합니다. 1~2개의 GPU로 학습 및 배포 가능하며, 매개변수 공유 전략을 통해 모델 크기를 최대 53%까지 줄였습니다.

인간과 유사한 모습과 기능을 가진 휴머노이드 로봇은 복잡한 작업을 수행할 수 있는 잠재력을 지니고 있습니다. 하지만 인간 중심 환경에서 효과적으로 작동하기 위해서는 로봇의 행동 결과를 예측하고 추론할 수 있는 강력한 예측 모델이 필수적입니다. Muhammad Qasim Ali, Aditya Sridhar, Shahbuland Matiana, Alex Wong, 그리고 Mohammad Al-Sharman이 이끄는 연구팀은 이러한 문제에 대한 해결책으로 Humanoid World Models (HWM) 을 제시했습니다.
HWM은 경량화된 오픈소스 비디오 기반 모델로, 로봇의 행동에 따라 미래의 시점에서 로봇이 관찰할 내용을 예측합니다. 연구팀은 100시간 분량의 휴머노이드 시연 데이터를 사용하여 매스킹 트랜스포머(Masked Transformers)와 플로우 매칭(FlowMatching)이라는 두 가지 유형의 생성 모델을 학습시켰습니다. 여기서 흥미로운 점은, 단 1~2개의 GPU만으로도 HWM을 학습시키고 배포할 수 있다는 것입니다. 이는 소규모 연구실에서도 첨단 인공지능 기술을 활용할 수 있는 길을 열어줍니다.
더 나아가, 연구팀은 서로 다른 어텐션 메커니즘과 매개변수 공유 전략을 활용하여 모델의 아키텍처를 다양하게 실험했습니다. 그 결과, 매개변수 공유 기법을 통해 모델 크기를 33%에서 53%까지 줄이는 데 성공했으며, 성능이나 시각적 정확도에는 거의 영향을 미치지 않았습니다. 이는 모델의 효율성을 획기적으로 높였다는 것을 의미합니다.
HWM은 학계와 소규모 연구실에서 쉽게 사용할 수 있도록 설계되었습니다. 이 모델은 휴머노이드 로봇의 발전에 중요한 기여를 할 것으로 기대되며, 인공지능 기술의 발전에 새로운 가능성을 제시합니다. 매스킹 트랜스포머와 플로우 매칭 기법의 실제 적용 사례는 다른 분야에도 영향을 미칠 수 있으며, 향후 더욱 발전된 휴머노이드 로봇 기술의 등장을 예고합니다. 이는 단순한 기술적 진보를 넘어, 인간과 로봇이 공존하는 미래 사회를 위한 중요한 발걸음입니다.
Reference
[arxiv] Humanoid World Models: Open World Foundation Models for Humanoid Robotics
Published: (Updated: )
Author: Muhammad Qasim Ali, Aditya Sridhar, Shahbuland Matiana, Alex Wong, Mohammad Al-Sharman
http://arxiv.org/abs/2506.01182v1