웹을 탐험하는 지능형 AI: 거대 추론 모델의 진화, WebThinker
본 기사는 거대 추론 모델(LRM)의 한계를 극복하고 웹 정보를 활용하여 연구 보고서를 작성하는 딥 러닝 기반 연구 에이전트 WebThinker를 소개합니다. WebThinker는 자율적인 웹 검색 및 정보 추출, 강화 학습 기반의 최적화 전략을 통해 기존 방식 대비 뛰어난 성능을 보이며, LRM의 신뢰성과 적용 가능성을 크게 향상시켰습니다.

최근 급격한 발전을 거듭하고 있는 거대 추론 모델(LRM)은 OpenAI-o1이나 DeepSeek-R1과 같이 장기간에 걸친 추론 능력을 선보이며 놀라움을 자아내고 있습니다. 하지만 이러한 모델들은 정적인 내부 지식에 의존하기 때문에 복잡하고 지식 집약적인 작업 수행에는 한계를 보이며, 다양한 웹 정보를 종합하여 포괄적인 연구 보고서를 작성하는 데 어려움을 겪습니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 WebThinker입니다. WebThinker는 LRM을 강화하여 웹을 자율적으로 검색하고, 웹페이지를 탐색하며, 추론 과정 중에 연구 보고서를 작성할 수 있도록 설계된 딥 러닝 기반의 연구 에이전트입니다.
WebThinker의 핵심은 심층 웹 탐색기(Deep Web Explorer) 모듈과 자율적 사고-검색-초안 전략(Autonomous Think-Search-and-Draft strategy) 에 있습니다. 심층 웹 탐색기 모듈은 LRM이 지식의 공백을 만났을 때 동적으로 웹을 검색하고, 정보를 추출하여 필요한 지식을 능동적으로 확보할 수 있도록 지원합니다. 자율적 사고-검색-초안 전략은 추론, 정보 수집, 보고서 작성 과정을 실시간으로 매끄럽게 통합하여 효율성을 극대화합니다. 더 나아가, 강화 학습 기반의 훈련 전략(RL-based training strategy) 을 통해 반복적인 온라인 직접 선호도 최적화(DPO)를 수행하여 연구 도구 활용도를 향상시켰습니다.
GPQA, GAIA, WebWalkerQA, HLE와 같은 복잡한 추론 벤치마크와 Glaive와 같은 과학 보고서 생성 작업에 대한 광범위한 실험 결과, WebThinker는 기존 방법과 강력한 독점 시스템을 능가하는 성능을 보였습니다. 이는 WebThinker가 복잡한 상황에서 LRM의 신뢰성과 적용 가능성을 크게 향상시키고, 더욱 능력 있고 다재다능한 심층 연구 시스템의 길을 열었다는 것을 의미합니다. WebThinker의 코드는 https://github.com/RUC-NLPIR/WebThinker에서 확인할 수 있습니다.
Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou 등 연구진의 노력으로 탄생한 WebThinker는 LRM 기술의 새로운 지평을 열었습니다. 앞으로 WebThinker가 다양한 분야의 연구 활동에 어떻게 활용될지, 그리고 어떠한 혁신을 가져올지 기대됩니다.
Reference
[arxiv] WebThinker: Empowering Large Reasoning Models with Deep Research Capability
Published: (Updated: )
Author: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou
http://arxiv.org/abs/2504.21776v1