StepSearch: 단계별 접근으로 LLM의 검색 능력 혁신
Ziliang Wang 등 연구진이 개발한 StepSearch는 단계별 근접 정책 최적화를 통해 LLM의 검색 능력을 크게 향상시킨 프레임워크입니다. 세밀한 단계별 감독과 적은 학습 데이터만으로도 괄목할 만한 성능 향상을 달성하여, 향후 LLM 발전에 중요한 기여를 할 것으로 기대됩니다. 소스 코드 또한 공개되어 있어 더 많은 연구와 활용이 가능합니다.

최근 몇 년 동안, 대규모 언어 모델(LLM)의 발전은 눈부셨습니다. 하지만 복잡한 다단계 추론이 필요한 질의응답(QA) 과제에서는 여전히 한계를 보여왔습니다. 기존의 강화학습(RL) 기반 접근 방식은 전역적 보상 신호만을 사용하여 학습하기 때문에, 복잡한 질문에 대한 효과적인 답변을 얻기 어려웠습니다.
이러한 문제를 해결하고자, Ziliang Wang 등 연구진이 개발한 StepSearch가 등장했습니다. StepSearch는 단계별 근접 정책 최적화(step-wise proximal policy optimization) 라는 혁신적인 방법을 사용하여 LLM의 검색 능력을 향상시키는 프레임워크입니다.
StepSearch의 핵심: 세밀한 단계별 감독
StepSearch의 핵심은 기존의 전역적 보상만 사용하는 방식과 달리, 각 검색 단계마다 세밀한 보상을 제공한다는 것입니다. 정보 이득과 중복 패널티를 기반으로 토큰 수준의 프로세스 감독을 통해, LLM이 각 단계에서 최적의 검색 전략을 선택하도록 유도합니다. 이는 마치 숙련된 탐정이 단서를 하나씩 조합하여 사건을 해결하는 과정과 유사합니다.
놀라운 성능 향상: 19,000개의 데이터로 괄목할 만한 결과
연구진은 오픈소스 데이터셋을 기반으로 새롭게 구축한 세분화된 질의응답 데이터셋을 사용하여 StepSearch를 학습시켰습니다. 놀랍게도, 단 19,000개의 학습 데이터만으로도 3B 및 7B 모델에서 기존 RL 기반 검색 방식 대비 각각 11.2% 및 4.2%의 절대적인 성능 향상을 달성했습니다. 이는 StepSearch의 효율성과 강력함을 보여주는 훌륭한 결과입니다.
공개된 소스 코드: 더 나은 LLM 개발을 위한 초석
StepSearch의 구현 코드는 https://github.com/zxh20001117/StepSearch 에서 공개되어 있습니다. 이를 통해 더 많은 연구자들이 StepSearch를 활용하여 LLM의 검색 능력을 더욱 발전시키고, 다양한 분야에 적용할 수 있을 것으로 기대됩니다.
StepSearch는 LLM의 검색 능력을 한 단계 끌어올린 획기적인 연구 결과입니다. 세밀한 단계별 감독이라는 새로운 접근 방식은 향후 LLM 발전에 중요한 영향을 미칠 것으로 예상됩니다.
Reference
[arxiv] StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization
Published: (Updated: )
Author: Ziliang Wang, Xuhui Zheng, Kang An, Cijun Ouyang, Jialu Cai, Yuhang Wang, Yichao Wu
http://arxiv.org/abs/2505.15107v1