로봇이 '부드럽게', '세게'를 이해한다면? Bi-LAT: 자연어와 양측 제어 기반의 혁신적 모방 학습
일본과 태국의 연구진이 개발한 Bi-LAT는 자연어 처리와 양측 제어를 결합한 혁신적인 모방 학습 프레임워크로, 로봇이 인간의 자연어 명령에 따라 정밀한 힘 조절을 수행할 수 있게 합니다. 다양한 실험을 통해 Bi-LAT의 효과적인 힘 조절 능력이 검증되었으며, 특히 SigLIP 언어 인코더를 사용했을 때 성능이 향상되었습니다. 이는 더욱 직관적이고 적응적인 인간-로봇 상호 작용의 가능성을 제시합니다.

로봇이 '부드럽게', '세게'를 이해한다면?
인간의 말을 이해하고, 정교한 힘 조절까지 가능한 로봇 시대가 성큼 다가왔습니다. 일본과 태국의 연구진이 공동 개발한 Bi-LAT(Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers)가 그 가능성을 보여주고 있습니다.
Bi-LAT: 자연어와 양측 제어의 만남
Bi-LAT는 자연어 처리(NLP)와 양측 제어를 결합한 새로운 모방 학습 프레임워크입니다. 기존의 로봇 제어 방식을 넘어, "부드럽게 컵을 잡아라", "세게 스폰지를 비틀어라" 와 같은 자연어 명령을 이해하고, 그에 맞춰 로봇이 힘을 조절하는 놀라운 기술입니다. 이는 단순히 위치나 속도 제어를 넘어, 인간의 의도를 정확하게 반영하는 정밀한 힘 제어를 가능하게 합니다.
핵심 기술: 다중 모드 Transformer와 SigLIP
Bi-LAT는 리더-팔로워 원격 조작에서 얻은 관절 위치, 속도, 토크 데이터뿐만 아니라, 시각 및 언어적 단서까지 통합합니다. 다중 모드 Transformer 기반 모델을 통해 인간의 지시를 인코딩하여 실제 작업에서 필요한 미묘한 힘의 차이를 학습합니다. 특히, 다양한 언어 인코더 중 SigLIP를 사용했을 때 명령에 따른 힘 조절 정확도가 더욱 향상되는 것을 실험을 통해 확인했습니다.
실험 결과: 컵 쌓기와 스폰지 비틀기 성공
연구진은 Bi-LAT의 성능을 (1) 로봇이 언어 명령에 따라 컵을 잡는 힘을 정확하게 조절하는 단일 수동 컵 쌓기 시나리오와 (2) 협응된 힘 제어가 필요한 양손 스폰지 비틀기 작업에서 검증했습니다. 실험 결과, Bi-LAT는 지시된 힘의 수준을 효과적으로 재현하는 것으로 나타났습니다. 특히 SigLIP을 사용했을 때 그 성능이 더욱 뛰어났습니다.
미래 전망: 더욱 직관적이고 적응적인 인간-로봇 상호 작용
Bi-LAT는 자연어 지시를 모방 학습에 통합하는 가능성을 보여주는 획기적인 연구입니다. 이 기술은 더욱 직관적이고 적응적인 인간-로봇 상호 작용을 위한 새로운 장을 열 것으로 기대됩니다. 더 자세한 내용은 https://mertcookimg.github.io/bi-lat/ 에서 확인할 수 있습니다.
참고: Kobayashi, T., Kobayashi, M., Buamanee, T., & Uranishi, Y. (2025). Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers. (가상 논문 정보. 실제 출판 여부는 확인되지 않았습니다.)
Reference
[arxiv] Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers
Published: (Updated: )
Author: Takumi Kobayashi, Masato Kobayashi, Thanpimon Buamanee, Yuki Uranishi
http://arxiv.org/abs/2504.01301v1