똑똑한 로봇, 질문으로 문제를 해결하다: 강화학습 기반 질문형 멀티모달 LLM 에이전트


본 연구는 강화학습을 통해 질문을 하는 멀티모달 LLM 에이전트를 개발하여 모호한 지시에도 효율적으로 작업을 수행하는 방법을 제시합니다. LLM 기반 보상을 사용하여 대규모 인간 데모 없이도 높은 성능을 달성하였으며, 향후 지능형 로봇 개발에 중요한 발전을 가져올 것으로 기대됩니다.

related iamge

똑똑한 로봇, 질문으로 문제를 해결하다: 강화학습 기반 질문형 멀티모달 LLM 에이전트

가정용 로봇이 실제 환경에서 제대로 작동하려면 모호하고 불완전한 사용자의 지시를 정확하게 이해해야 합니다. 단순히 명령을 따르는 것이 아니라, 명령의 모호성을 인지하고 필요한 질문을 통해 사용자의 의도를 명확히 하고, 그에 따라 효율적으로 작업을 수행해야 하는 것이죠. Ram Ramrakhya를 비롯한 6명의 연구진은 이러한 문제를 해결하기 위해 흥미로운 연구 결과를 발표했습니다.

Ask-to-Act 과제: 연구진은 가정 환경에서 특정 물체를 가져오라는 모호한 지시를 받았을 때, 에이전트가 최소한의 질문으로 모호성을 해소하고 부분적인 관찰 상태에서도 효율적으로 작업을 수행하는 'Ask-to-Act' 과제를 제시했습니다. 마치 사람처럼 질문을 통해 정보를 얻고, 작업을 완료하는 로봇을 구현하고자 한 것이죠.

MLLM과 강화학습의 만남: 이 과제를 해결하기 위해 연구진은 다중 모달 대규모 언어 모델(MLLM)을 시각-언어-행동(VLA) 정책으로 미세 조정하는 새로운 접근 방식을 제안했습니다. 핵심은 온라인 강화학습(RL)LLM이 생성한 보상을 사용하는 것입니다. 이는 기존처럼 방대한 인간 데모 데이터나 수작업으로 설계된 보상 없이도 효율적인 학습이 가능하다는 것을 의미합니다. GPT-4o를 포함한 강력한 제로샷 기준 모델과 비교하여 성능을 평가한 결과, RL로 미세 조정된 MLLM이 다른 모든 기준 모델보다 19.1%~40.3%의 상당한 차이로 우수한 성능을 보였습니다. 새로운 장면과 작업에도 잘 일반화되는 모습을 보여주었다는 점도 주목할 만합니다.

결론: 이 연구는 LLM이 생성한 보상을 사용하는 온라인 RL을 통해 MLLM을 질문하고 행동하는 VLA 에이전트로 적용한 최초의 사례입니다. 모호한 지시에도 스스로 질문하며 문제를 해결하는 로봇, 머지않아 현실이 될지도 모릅니다. 이러한 기술은 실제 세계에서 작동하는 지능형 로봇 개발에 중요한 발전을 가져올 것으로 기대됩니다. 앞으로 더욱 발전된 기술을 통해, 인간과 로봇 간의 상호작용이 더욱 자연스럽고 효율적으로 이루어지는 미래를 기대해 볼 수 있습니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning

Published:  (Updated: )

Author: Ram Ramrakhya, Matthew Chang, Xavier Puig, Ruta Desai, Zsolt Kira, Roozbeh Mottaghi

http://arxiv.org/abs/2504.00907v2