LLM+MAP: 대형 언어 모델과 계획 도메인 정의 언어를 사용한 양손 로봇 작업 계획


LLM+MAP은 대형 언어 모델(LLM)과 다중 에이전트 계획(MAP)을 결합하여 양손 로봇의 장기적 작업 계획 문제를 해결한 혁신적인 프레임워크입니다. 실험 결과, LLM+MAP은 기존의 LLM 기반 계획보다 뛰어난 성능을 보였으며, 로봇 추론에 대한 새로운 통찰력을 제공합니다.

related iamge

두 손으로 세상을 조작하다: LLM+MAP의 혁신적인 양손 로봇 계획

인간의 손처럼 자유롭고 유연하게 두 손을 사용하는 로봇은 오랫동안 로봇 공학의 꿈이었습니다. 하지만 두 손의 공간적, 시간적 조정이라는 복잡한 문제 때문에, 장기간에 걸친 작업 계획은 어려움에 직면해 왔습니다. 기존 연구들은 주로 로봇 손의 숙련된 조작 능력에 초점을 맞춰 왔지만, 장기적인 시간 척도에서의 작업 계획에는 소홀히 했습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 LLM+MAP입니다. Kun Chu, Xufeng Zhao, Cornelius Weber, 그리고 Stefan Wermter가 개발한 이 혁신적인 프레임워크는 대형 언어 모델(LLM) 의 놀라운 능력과 다중 에이전트 계획(MAP) 을 결합하여 효과적이고 효율적인 양손 로봇 작업 계획을 자동화합니다.

LLM은 뛰어난 맥락 내 학습 및 제로샷 생성 능력으로 로봇 작업 계획에 활용되어 왔지만, 복잡한 로봇 작업에서는 장기적 추론 오류와 환각 문제가 발생하여 논리적 정확성을 보장할 수 없었습니다. LLM+P와 같은 기존 연구에서는 LLM에 상징적 계획기를 추가했지만, 양손 로봇에는 성공적으로 적용되지 못했습니다. 양손 조작은 효과적인 작업 분해뿐만 아니라 효율적인 작업 할당도 필요하기 때문입니다.

LLM+MAP은 이러한 어려움을 극복하기 위해 LLM의 추론 능력과 다중 에이전트 계획을 통합했습니다. 연구팀은 GPT-4o를 백엔드로 사용하여 다양한 복잡도의 장기적 조작 작업에 대한 시뮬레이션 실험을 진행했습니다. 실험 결과는 GPT-4o, V3, 그리고 최근의 강력한 추론 모델인 o1 및 R1과의 비교를 통해 LLM+MAP의 우수성을 증명했습니다. 계획 시간, 성공률, 그룹 부채, 계획 단계 감소율 등의 지표 분석을 통해 LLM+MAP이 훨씬 뛰어난 성능을 보임을 확인했습니다. 이 연구는 로봇 추론에 대한 귀중한 통찰력을 제공하며, 코드는 GitHub에서 확인할 수 있습니다.

요약: LLM+MAP은 LLM의 강점과 다중 에이전트 계획의 효율성을 결합하여 양손 로봇 조작의 새로운 지평을 열었습니다. 복잡한 작업에서도 효과적이고 효율적인 계획을 가능하게 하여, 더욱 유연하고 지능적인 로봇 시스템의 개발을 앞당길 것으로 기대됩니다. 이는 단순한 기술적 진보를 넘어, 인간과 로봇의 협력 시스템 구축에 중요한 이정표가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language

Published:  (Updated: )

Author: Kun Chu, Xufeng Zhao, Cornelius Weber, Stefan Wermter

http://arxiv.org/abs/2503.17309v1