검색 효율적인 대규모 언어 모델을 위한 강화 학습: SEM의 등장


Zeyang Sha, Shiwen Cui, Weiqiang Wang 등이 개발한 SEM은 대규모 언어 모델의 검색 효율성을 향상시키는 새로운 강화 학습 프레임워크입니다. MuSiQue와 MMLU 데이터셋을 활용하고, GRPO를 통해 불필요한 검색을 줄이면서 정확도를 유지하거나 개선하는 성과를 보였습니다.

related iamge

최근 대규모 언어 모델(LLM)의 발전은 추론 능력뿐 아니라 외부 도구, 특히 검색 엔진을 활용하는 능력까지 입증했습니다. 하지만 모델이 언제 검색을 호출하고 언제 내부 지식에 의존해야 하는지 판단하는 것은 여전히 큰 과제입니다. 기존의 강화 학습 방법은 종종 불필요한 검색 행동을 유발하여 비효율성과 과도한 비용을 초래했습니다.

이러한 문제를 해결하기 위해 Zeyang Sha, Shiwen Cui, Weiqiang Wang 등의 연구진은 SEM(Search-Efficient Model) 이라는 새로운 강화 학습 프레임워크를 제안했습니다. SEM은 LLM이 검색 사용을 최적화하도록 명시적으로 학습시키는 획기적인 후속 학습 기반 프레임워크입니다.

연구진은 MuSiQue와 MMLU 데이터셋을 결합하여 균형 잡힌 데이터셋을 구성했습니다. 이를 통해 모델은 직접 답변할 수 있는 질문과 외부 검색이 필요한 질문을 구분하는 법을 학습합니다. 구조화된 추론 템플릿과 GRPO(Group Relative Policy Optimization)를 활용하여 모델의 검색 행동을 효율적으로 학습시키는 것이 핵심입니다. 보상 함수는 불필요한 검색 없이 정확한 답변을 유도하고, 필요할 때 효과적인 검색을 장려하도록 설계되었습니다.

다양한 벤치마크에 대한 실험 결과, SEM은 불필요한 검색 연산을 크게 줄이면서 정답률을 유지하거나 개선하는 것으로 나타났습니다. 이는 모델의 추론 효율성을 높이고 외부 지식을 신중하게 활용하는 능력을 향상시킨다는 것을 의미합니다. SEM은 LLM의 검색 효율성을 획기적으로 개선하여 비용 절감과 성능 향상에 크게 기여할 것으로 기대됩니다. 앞으로도 이러한 연구를 통해 LLM이 더욱 효율적이고 지능적으로 외부 지식을 활용하는 방안이 지속적으로 개발될 것으로 예상됩니다.

핵심: SEM은 LLM의 검색 효율성을 극대화하는 동시에 정확도를 유지하거나 향상시키는 혁신적인 강화 학습 프레임워크입니다. 이는 LLM의 실용성과 효율성을 한 단계 끌어올리는 중요한 발전입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SEM: Reinforcement Learning for Search-Efficient Large Language Models

Published:  (Updated: )

Author: Zeyang Sha, Shiwen Cui, Weiqiang Wang

http://arxiv.org/abs/2505.07903v1