DeepResearcher: 강화학습으로 실제 환경에서 심층 연구 확장
DeepResearcher는 실제 웹 환경에서 강화 학습을 통해 LLM 기반 심층 연구 에이전트를 훈련하는 최초의 종합적 프레임워크로, 기존 방식보다 뛰어난 성능과 새로운 인지적 행동을 보여줍니다.

DeepResearcher: 웹 검색의 깊이를 더하다
최근 거대 언어 모델(LLM)이 웹 검색 기능과 결합되면서 심층 연구 분야에 혁신적인 가능성을 제시하고 있습니다. 하지만 기존 방식들은 취약한 성능을 가진 수동 프롬프트 엔지니어링 또는 실제 상호 작용의 복잡성을 포착하지 못하는 제한된 RAG(Retrieval-Augmented Generation) 환경 내 강화 학습에 의존하는 한계를 가지고 있었습니다.
Zheng Yuxiang 등 연구진이 발표한 논문 “DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments”는 이러한 한계를 극복하기 위한 획기적인 시도를 보여줍니다. DeepResearcher는 실제 웹 검색 상호 작용을 통해 강화 학습을 확장하여 LLM 기반 심층 연구 에이전트를 훈련하는 최초의 종합적인 프레임워크입니다.
기존 RAG 기반 접근 방식이 고정된 코퍼스 내에 필요한 모든 정보가 존재한다고 가정하는 것과 달리, DeepResearcher는 에이전트가 잡음이 많고, 구조화되지 않으며, 역동적인 개방형 웹 환경을 탐색하도록 훈련합니다. 특히, 여러 웹페이지 구조에서 관련 정보를 추출하는 브라우징 에이전트를 포함한 다중 에이전트 아키텍처를 통해 상당한 기술적 어려움을 극복했습니다.
개방형 도메인 연구 과제에 대한 광범위한 실험 결과, DeepResearcher는 프롬프트 엔지니어링 기반 기준 모델보다 최대 28.9점, RAG 기반 RL 에이전트보다 최대 7.2점 향상된 성능을 달성했습니다. 더욱 놀라운 것은 종단 간 RL 훈련을 통해 계획 수립, 여러 출처의 정보 교차 검증, 연구 방향 재설정을 위한 자기 반성, 명확한 답변을 찾을 수 없을 때 정직성 유지 등의 새로운 인지적 행동이 나타났다는 점입니다.
DeepResearcher는 단순한 구현 세부 사항이 아니라 실제 응용 프로그램과 일치하는 강력한 연구 기능을 개발하기 위한 기본적인 요구 사항임을 보여주는 중요한 결과입니다. Github(https://github.com/GAIR-NLP/DeepResearcher) 에서 DeepResearcher를 확인해 보세요.
이 연구는 LLM 기반 심층 연구의 미래를 향한 중요한 발걸음이며, 앞으로 더욱 발전된 인공지능 기반 연구 도구의 등장을 기대하게 합니다.
Reference
[arxiv] DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
Published: (Updated: )
Author: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu
http://arxiv.org/abs/2504.03160v1