DeepResearcher: 강화학습으로 실제 환경에서 심층 연구를 확장하다


DeepResearcher는 실제 웹 환경에서 강화학습을 통해 LLM 기반 심층 연구 에이전트를 종단 간으로 훈련하는 최초의 프레임워크입니다. 기존 방식보다 성능이 크게 향상되었으며, 계획 수립, 정보 교차 검증 등의 새로운 인지적 행동을 보여줍니다. 실제 세계의 복잡성을 반영한 훈련 환경의 중요성을 강조하는 연구입니다.

related iamge

최근 웹 검색 기능을 갖춘 거대 언어 모델(LLM)이 심층 연구 작업에서 놀라운 잠재력을 보여주고 있습니다. 하지만 기존 접근 방식은 취약한 성능을 가진 수동으로 설계된 프롬프트(프롬프트 엔지니어링 기반) 또는 실제 상호 작용의 복잡성을 포착하지 못하는 제어된 검색 증강 생성(RAG) 환경 내의 강화 학습(RAG 기반)에 크게 의존해 왔습니다.

Zheng Yuxiang을 비롯한 연구팀은 이러한 한계를 극복하고자, 실제 웹 검색 상호 작용을 통해 실제 환경에서 강화 학습(RL)을 확장하여 LLM 기반 심층 연구 에이전트를 종단 간으로 훈련하는 최초의 포괄적인 프레임워크인 DeepResearcher를 소개했습니다. RAG 기반 접근 방식이 고정된 코퍼스 내에 모든 필요한 정보가 존재한다고 가정하는 것과 달리, DeepResearcher는 에이전트가 잡음이 많고, 구조화되지 않으며, 역동적인 오픈 웹의 특성을 탐색하도록 훈련합니다.

DeepResearcher는 다양한 웹페이지 구조에서 관련 정보를 추출하는 브라우징 에이전트를 포함하는 특수한 다중 에이전트 아키텍처를 구현하여 상당한 기술적 과제를 극복했습니다. 공개 도메인 연구 작업에 대한 광범위한 실험을 통해 DeepResearcher가 프롬프트 엔지니어링 기반 기준선보다 최대 28.9점, RAG 기반 RL 에이전트보다 최대 7.2점 향상된 성능을 달성했음을 보여줍니다.

정성적 분석 결과, 종단 간 RL 훈련을 통해 계획 수립, 여러 소스의 정보 교차 검증, 연구 방향 재설정을 위한 자기 반성, 확실한 답을 찾을 수 없을 때 정직성 유지 등의 새로운 인지적 행동이 나타났습니다. 이는 실제 웹 환경에서의 종단 간 훈련이 단순한 구현 세부 사항이 아니라 실제 응용 프로그램과 일치하는 강력한 연구 기능을 개발하기 위한 기본적인 요구 사항임을 강조합니다.

DeepResearcher는 https://github.com/GAIR-NLP/DeepResearcher 에서 공개됩니다. 이 연구는 LLM 기반 연구의 미래를 위한 중요한 진전이며, 더욱 발전된 AI 기반 연구 도구의 개발에 대한 기대를 높입니다. 특히, 실제 세계의 복잡성을 반영한 훈련 환경의 중요성을 재확인시켜주는 의미있는 결과입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

Published:  (Updated: )

Author: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu

http://arxiv.org/abs/2504.03160v2