LLM 기반 밀집 검색의 혁신: LLM-QL 모델의 등장


장헝란 등 연구진이 개발한 LLM-QL 모델은 LLM의 생성 능력과 기존 QL 모델의 장점을 결합하여 밀집 검색 성능을 크게 향상시켰습니다. Attention Stop과 Input Corruption 기법을 통해 LLM의 한계를 극복하고 MSMARCO 데이터셋에서 우수한 성능을 검증했습니다.

related iamge

최근 정보 검색(IR) 분야에서 밀집 검색(Dense Retrieval)의 중요성이 날로 커지고 있습니다. 특히, 하류 작업인 재순위 지정(Re-ranking)의 기반으로서 그 역할이 필수적입니다. 이러한 맥락에서 대규모 언어 모델(LLM)의 등장은 게임 체인저가 되었습니다. LLM은 뛰어난 의미 이해 능력을 바탕으로 밀집 검색 연구에 새로운 가능성을 제시하고 있습니다.

하지만, 디코더 스타일의 생성 모델인 LLM은 이후 토큰에 대한 주의를 기울이지 않아 전역 정보 모델링에 어려움을 겪습니다. 이러한 LLM의 한계를 극복하기 위해, 장헝란(Hengran Zhang) 등 8명의 연구진은 기존의 단어 기반 언어 모델링 방식인 질의 가능성(Query Likelihood, QL) 모델에서 영감을 얻었습니다. 연구진은 QL을 극대화하여 LLM의 생성 능력을 충분히 활용하는 방법을 모색했습니다.

단순히 QL 추정치로 문서 순위를 매기는 대신, 연구진은 차별적 검색기를 대조적으로 학습하는 데 더 나은 백본을 생성하기 위해 QL 극대화라는 보조 작업을 도입했습니다. 이렇게 탄생한 모델이 바로 LLM-QL입니다. QL 모델링 중에 전역 문서 의미를 단일 벡터로 압축하기 위해 LLM-QL은 두 가지 주요 구성 요소인 Attention Stop(AS)Input Corruption(IC) 을 갖습니다. AS는 예측 토큰의 주의를 문서의 끝 토큰까지 이전 토큰으로 제한합니다. IC는 예측 중 입력 문서의 일부 토큰을 마스킹합니다.

MSMARCO 데이터셋을 이용한 실험 결과, LLM-QL은 다른 LLM 기반 검색기보다 훨씬 더 나은 성능을 달성했습니다. 또한, LLM-QL에 의해 추정된 QL을 순위 매기기에 사용하면 단어 기반 QL보다 성능이 크게 향상됨을 확인했습니다. 이 연구는 LLM 기반 밀집 검색 분야에 중요한 돌파구를 마련했을 뿐만 아니라, 기존 QL 모델의 한계를 극복하고 LLM의 잠재력을 극대화하는 새로운 방법론을 제시했습니다. 이는 향후 정보 검색 및 관련 분야의 발전에 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling

Published:  (Updated: )

Author: Hengran Zhang, Keping Bi, Jiafeng Guo, Xiaojie Sun, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng

http://arxiv.org/abs/2504.05216v2