Pre-Act: LLM 에이전트의 행동 개선을 위한 다단계 계획 및 추론
본 기사는 Mrinal Rawat 등 연구진이 개발한 Pre-Act라는 새로운 AI 에이전트 시스템에 대해 다룹니다. Pre-Act는 다단계 계획 및 추론을 통해 기존 ReAct 방식보다 월등한 성능을 보이며, 특히 소규모 모델에서도 GPT-4를 능가하는 성과를 달성했습니다. 이는 AI 에이전트 기술 발전에 중요한 의미를 갖는 혁신적인 성과입니다.

AI 에이전트의 혁신: Pre-Act의 등장
최근 대규모 언어 모델(LLM) 기반 에이전트 시스템이 급부상하고 있습니다. DeepSeek-R1과 OpenAI o1/o3와 같은 최신 LLM들은 충분한 중간 토큰 생성을 통한 추론에 중점을 두어 최종 출력 토큰 생성 전에 강력한 전제를 구축합니다. 이러한 맥락에서 Mrinal Rawat 등 연구진이 발표한 논문은 주목할 만합니다. 그들은 Pre-Act라는 혁신적인 접근 방식을 소개하며, 에이전트의 성능 향상에 대한 새로운 지평을 열었습니다.
Pre-Act는 주어진 사용자 입력에 대해 다단계 실행 계획과 상세한 추론을 생성하여 에이전트의 성능을 향상시킵니다. 이 계획은 이전 단계와 도구 출력을 점진적으로 통합하여 각 단계 실행 후 최종 응답이 얻어질 때까지 자체적으로 개선됩니다. 대화형 및 비대화형 에이전트 모두에 적용 가능하다는 점이 특징입니다.
두 가지 평가 기준: 턴 레벨과 엔드 투 엔드
연구진은 과제 중심 에이전트의 성능을 종합적으로 측정하기 위해 두 가지 레벨의 평가 프레임워크를 제안했습니다. 첫째, 각 상호작용 단계를 평가하는 턴 레벨 평가와 둘째, 최종 목표 달성 여부를 평가하는 엔드 투 엔드 평가입니다.
놀라운 성과: 기존 ReAct 방식 압도
5개 모델에 걸친 턴 레벨 평가 결과, Pre-Act는 Almita 데이터셋에서 행동 재현율 측면에서 ReAct보다 70%나 높은 성능을 보였습니다. 이는 Pre-Act의 뛰어난 효율성을 보여주는 강력한 증거입니다.
소규모 모델의 한계 극복: Llama 3.1의 성공적인 미세 조정
하지만, 실용적인 응용 분야에서는 지연 시간과 비용이 중요한 제약 조건이 됩니다. 따라서 Pre-Act 접근 방식을 사용하여 Llama 3.1 (8B & 70B)과 같은 상대적으로 작은 모델을 미세 조정하는 연구도 진행되었습니다. 놀랍게도, 미세 조정된 70B 모델은 Almita(도메인 외) 데이터셋에서 행동 정확도(턴 레벨) 69.5%, 목표 달성률(엔드 투 엔드) 28% 향상을 달성하며 GPT-4를 능가하는 성과를 보였습니다.
결론: AI 에이전트의 미래를 위한 한 걸음
Pre-Act는 LLM 기반 에이전트의 성능 향상에 대한 새로운 가능성을 제시합니다. 특히 소규모 모델의 성능 개선을 통해 실제 응용 분야에서의 활용도를 높였다는 점에서 큰 의미를 지닙니다. Pre-Act의 등장은 AI 에이전트 기술의 발전에 중요한 이정표가 될 것으로 기대됩니다. 앞으로 Pre-Act를 기반으로 더욱 발전된 AI 에이전트 시스템이 개발될 것으로 예상됩니다.
Reference
[arxiv] Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
Published: (Updated: )
Author: Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini
http://arxiv.org/abs/2505.09970v1