DeepResearcher: 강화학습으로 실세계 환경에서 심층 연구 확장
본 기사는 실제 웹 환경에서 강화 학습을 통해 심층 연구를 수행하는 혁신적인 LLM 기반 에이전트 DeepResearcher를 소개합니다. 기존 방식의 한계를 극복하고 최대 28.9점의 성능 향상을 달성한 DeepResearcher는 실제 세계 응용 프로그램에 적합한 강력한 연구 기능을 개발하는 데 기본적인 요구 사항임을 시사합니다.

혁신적인 심층 연구 에이전트, DeepResearcher 등장!
웹 검색 기능을 갖춘 거대 언어 모델(LLM)은 심층 연구 작업에서 놀라운 잠재력을 보여주고 있습니다. 하지만 기존의 접근 방식은 취약한 성능을 가진 수동으로 설계된 프롬프트(프롬프트 엔지니어링 기반) 또는 실제 세계의 복잡성을 포착하지 못하는 제어된 RAG(Retrieval-Augmented Generation) 환경 내의 강화 학습(RAG 기반)에 주로 의존해 왔습니다.
중국 과학원 자동화 연구소의 Zheng Yuxiang 등 연구진 은 이러한 한계를 극복하기 위해, DeepResearcher를 발표했습니다. DeepResearcher는 실제 웹 검색 상호 작용을 통해 강화 학습(RL)을 확장하여 실제 환경에서 LLM 기반 심층 연구 에이전트를 훈련하는 최초의 종단간 프레임워크입니다.
기존 방식의 한계를 뛰어넘다
기존의 RAG 기반 접근 방식은 필요한 모든 정보가 고정된 데이터 세트 내에 존재한다고 가정합니다. 하지만 DeepResearcher는 시끄럽고, 구조화되지 않고, 역동적인 실제 웹의 특성을 탐색하도록 에이전트를 훈련합니다. 여기에는 특수한 다중 에이전트 아키텍처가 사용됩니다. 브라우징 에이전트는 다양한 웹페이지 구조에서 관련 정보를 추출하고, 상당한 기술적 과제를 극복합니다.
놀라운 성능 향상과 새로운 가능성
개방형 도메인 연구 과제에 대한 광범위한 실험 결과, DeepResearcher는 프롬프트 엔지니어링 기반 기준 모델보다 최대 28.9점, RAG 기반 RL 에이전트보다 최대 7.2점 향상된 성능을 달성했습니다. 뿐만 아니라, 질적 분석을 통해 계획 수립, 여러 소스의 정보 교차 검증, 연구 방향 전환을 위한 자기 반성, 그리고 명확한 답을 찾을 수 없을 때 정직성 유지 등의 새로운 인지 행동이 나타나는 것을 확인했습니다. 이는 종단간 실제 웹 환경에서의 훈련이 단순한 구현 세부 사항이 아니라 실제 응용 프로그램과 일치하는 강력한 연구 기능을 개발하기 위한 기본적인 요구 사항임을 강조합니다.
DeepResearcher는 https://github.com/GAIR-NLP/DeepResearcher 에서 공개되었습니다. 이 혁신적인 프레임워크는 심층 연구 분야에 새로운 지평을 열 것으로 기대됩니다. 앞으로 DeepResearcher가 어떻게 발전하고 활용될지 기대해 봅시다!
Reference
[arxiv] DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
Published: (Updated: )
Author: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu
http://arxiv.org/abs/2504.03160v4