혁신적인 AI 계획: 코드로 그리드 월드 정복하기
Ashwath Vaithinathan Aravindan, Zhisheng Tang, Mayank Kejriwal 연구팀은 대규모 언어 모델(LLM)을 이용한 코드 기반 계획(IPP) 프레임워크를 제안하여 그리드 기반 작업에서 뛰어난 성능을 달성했습니다. IPP는 코드 생성을 통해 해석 가능한 에이전트 정책을 생성하며, 기존 방식보다 효율적이고 재사용 가능한 솔루션을 제공합니다.

최근 Ashwath Vaithinathan Aravindan, Zhisheng Tang, Mayank Kejriwal 연구팀이 발표한 논문 "Code-Driven Planning in Grid Worlds with Large Language Models"은 AI 계획 분야에 혁신적인 접근 방식을 제시합니다. 기존의 복잡한 탐색 알고리즘이나 강화 학습 대신, 대규모 언어 모델(LLM) 을 이용하여 코드를 생성하고, 이 코드를 통해 에이전트의 행동을 제어하는 반복적인 프로그래밍 계획(IPP) 프레임워크를 제안한 것입니다.
코드로 만들어지는 지능형 에이전트
이 연구의 핵심은 바로 코드 생성입니다. LLM은 주어진 그리드 환경에서 목표를 달성하기 위한 실행 가능한 코드를 생성합니다. 단순히 답을 찾는 것이 아니라, 문제 해결 과정을 코드로 표현함으로써, 에이전트의 행동을 명확하게 이해하고, 수정 및 개선이 용이해집니다. 더 나아가, 생성된 코드는 여러 상황에 재사용 가능하다는 장점도 가지고 있습니다.
다양한 전략과 반복적인 개선
연구팀은 직접적인 코드 생성 외에도, 의사 코드 조건부 개선 및 커리큘럼 기반 프롬프팅과 같은 다양한 프롬프팅 전략을 활용하여 LLM의 성능을 향상시켰습니다. 또한, 생성된 코드의 성능을 평가하고 피드백을 기반으로 코드를 반복적으로 개선하는 메커니즘을 도입하여 최적의 솔루션을 찾아나가는 방식을 채택했습니다.
놀라운 성능 향상
6가지 주요 LLM과 GRASP, MiniGrid 두 가지 벤치마크를 사용한 실험 결과는 놀랍습니다. IPP는 기존의 직접 코드 생성 방식에 비해 10%에서 최대 10배까지 성능 향상을 보였으며, GRASP 벤치마크에서는 새로운 최고 성능을 기록했습니다. 특히 GPT-o3-mini를 사용한 실험에서는, 직접 솔루션을 얻는 방법보다 MiniGrid에서 63%, GRASP에서 116%나 성능이 향상되는 것을 확인했습니다. 이는 IPP의 효율성과 우수성을 명확하게 보여주는 결과입니다.
경제적인 효율성
물론, 초기 코드 생성 비용은 직접 솔루션 유도보다 높습니다. 하지만 생성된 코드는 여러 번 재사용 가능하기 때문에, 전체적인 비용은 훨씬 절감됩니다. GPT-o3-mini의 경우, 전체 GRASP 벤치마크에서 평균 비용이 400배나 감소했습니다.
미래를 향한 전망
이 연구는 LLM을 이용한 코드 기반 계획의 가능성을 보여주는 중요한 결과입니다. 앞으로 더욱 발전된 LLM과 함께 IPP 프레임워크가 다양한 복잡한 문제 해결에 적용되어 AI 기술 발전에 크게 기여할 것으로 기대됩니다. 특히, 코드의 해석 가능성을 높이는 연구는 AI의 신뢰성 향상에도 크게 기여할 것입니다.
Reference
[arxiv] Code-Driven Planning in Grid Worlds with Large Language Models
Published: (Updated: )
Author: Ashwath Vaithinathan Aravindan, Zhisheng Tang, Mayank Kejriwal
http://arxiv.org/abs/2505.10749v1