혁신적인 로봇 학습 모델 CLAM: 비지도 학습으로 로봇 제어의 새 지평을 열다
Anthony Liang 등 연구진이 개발한 CLAM은 비지도 학습을 통해 로봇 학습의 효율성을 극대화한 혁신적인 모델입니다. 연속적인 잠재 행동 레이블과 행동 디코더를 결합하여 복잡한 작업에서도 높은 성공률을 보이며, 비최적 데이터만으로도 학습 가능하다는 점에서 큰 의미를 갖습니다.

로봇에게 복잡한 작업을 수행하도록 학습시키는 것은 막대한 비용과 시간을 필요로 하는 어려운 과제입니다. 기존의 모방 학습(imitation learning)은 정확하게 라벨링된 전문가 데모 데이터가 방대하게 필요했죠. 하지만 Anthony Liang 등 6명의 연구진이 개발한 CLAM(Continuous Latent Action Models) 은 이러한 한계를 뛰어넘는 혁신적인 모델입니다.
CLAM은 비지도 학습(unsupervised learning)을 통해 라벨링되지 않은 관찰 데이터(예: 비디오 데모)를 활용합니다. 특히, 기존 방법들이 복잡한 작업에서 어려움을 겪는다는 점을 파악하고, 연속적인 잠재 행동 레이블(continuous latent action labels) 과 행동 디코더(action decoder) 를 결합하는 독창적인 접근 방식을 채택했습니다. 이는 마치 로봇에게 미리 완벽한 동작을 가르치는 대신, 스스로 학습하며 점차 정교한 동작을 익히도록 돕는 것과 같습니다.
가장 놀라운 점은 CLAM이 최적이 아닌 데이터(non-optimal play data) 만으로도 우수한 성능을 보인다는 것입니다. 이는 전문가 수준의 완벽한 데모 데이터가 없어도 학습이 가능하다는 것을 의미하며, 데이터 수집 비용을 획기적으로 절감할 수 있습니다. 실제로 DMControl(보행), MetaWorld(조작) 벤치마크와 WidowX 로봇 팔 실험에서 기존 최고 성능 모델보다 2~3배 높은 작업 성공률을 달성하며 그 우수성을 입증했습니다. (자세한 내용은 clamrobot.github.io 참조)
CLAM의 등장은 로봇 학습 분야에 새로운 가능성을 열었습니다. 더 적은 비용과 노력으로 더욱 복잡하고 정교한 작업을 수행하는 로봇을 개발할 수 있는 길이 열린 것입니다. 이는 단순한 기술적 발전을 넘어, 로봇 기술의 대중화와 다양한 분야에서의 활용을 앞당길 혁신적인 성과라고 할 수 있습니다.
핵심 내용:
- 기존 모방 학습의 한계 극복: 라벨링된 데이터 의존성 감소
- 연속적인 잠재 행동 레이블과 행동 디코더의 결합: 복잡한 연속 제어 작업에 효과적
- 비최적 데이터 활용 가능성: 데이터 수집 비용 절감 및 학습 효율 증대
- DMControl, MetaWorld, WidowX 로봇 팔 실험에서 우수한 성능 검증 (기존 최고 성능 대비 2~3배 향상)
Reference
[arxiv] CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations
Published: (Updated: )
Author: Anthony Liang, Pavel Czempin, Matthew Hong, Yutai Zhou, Erdem Biyik, Stephen Tu
http://arxiv.org/abs/2505.04999v1