Pre-Act: LLM 에이전트의 행동 향상을 위한 다단계 계획 및 추론
본 기사는 Pre-Act, 즉 LLM 에이전트의 행동을 향상시키는 다단계 계획 및 추론 접근 방식에 대한 최신 연구 결과를 소개합니다. Pre-Act는 기존 ReAct 방식을 개선하여 액션 재현율과 목표 달성률을 크게 높였으며, 특히 소규모 모델에서도 우수한 성능을 보여 실용적인 응용 분야에 큰 기여를 할 것으로 기대됩니다.

LLM 에이전트의 혁신: Pre-Act의 등장
최근 대규모 언어 모델(LLM) 기반 에이전트 시스템에서 ReAct(Reasoning + Action) 기능이 핵심이 되었습니다. DeepSeek-R1이나 OpenAI o1/o3와 같은 최신 LLM들은 풍부한 중간 토큰 생성을 통해 강력한 전제를 구축하여 최종 출력 토큰을 생성하는 추론을 강조합니다.
하지만 Mrinal Rawat 등 6명의 연구원이 발표한 논문은 한 단계 더 나아갑니다. 바로 Pre-Act입니다. Pre-Act는 사용자 입력에 대한 상세한 추론과 함께 다단계 실행 계획을 생성하여 에이전트 성능을 향상시키는 새로운 접근 방식입니다. 이 계획은 각 단계 실행 후 이전 단계와 도구 출력을 점진적으로 통합하여 최종 응답을 얻을 때까지 자체적으로 개선됩니다. 대화형 및 비대화형 에이전트 모두에 적용 가능하다는 점이 특징입니다.
두 가지 평가 기준
연구팀은 과업 중심 에이전트의 성능을 종합적으로 측정하기 위해 두 가지 수준의 평가 프레임워크를 제안합니다. (1) 턴 수준 (turn level) 및 (2) 종단 간 (end-to-end) 평가입니다.
5가지 모델에 대한 평균 턴 수준 평가 결과, Pre-Act는 Almita 데이터셋에서 ReAct보다 액션 재현율이 70% 향상되었습니다. 이는 상당한 성과입니다. 하지만 큰 모델에 효과적인 Pre-Act도 지연 시간과 비용이 중요한 제약인 실용적인 애플리케이션에 필수적인 소규모 모델에서는 복잡한 추론 작업에 어려움을 겪을 수 있습니다.
소규모 모델의 한계 극복
이러한 한계를 해결하기 위해 연구팀은 Llama 3.1 (8B & 70B)과 같은 비교적 작은 모델을 Pre-Act 접근 방식을 사용하여 미세 조정했습니다. 실험 결과, 미세 조정된 70B 모델은 Almita(도메인 외) 데이터셋에서 GPT-4를 능가하는 성능을 보였습니다. 액션 정확도(턴 수준)가 69.5% 향상되었고 목표 달성률(종단 간)이 28% 향상되었습니다. 이는 작은 모델에서도 Pre-Act를 통해 뛰어난 성능을 얻을 수 있다는 것을 보여주는 중요한 결과입니다.
결론
Pre-Act는 LLM 에이전트의 성능을 크게 향상시키는 혁신적인 방법입니다. 특히, 소규모 모델에 대한 미세 조정을 통해 실용적인 응용 분야에서도 Pre-Act의 효과를 기대할 수 있습니다. 이 연구는 LLM 에이전트 개발에 중요한 전환점을 제시하며, 앞으로 더욱 발전된 에이전트 시스템의 출현을 예고합니다. 이러한 발전은 다양한 분야에서 AI의 활용 가능성을 넓히는 데 크게 기여할 것입니다.
Reference
[arxiv] Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
Published: (Updated: )
Author: Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini
http://arxiv.org/abs/2505.09970v2