LLM 기반 밀집 검색의 혁신: 쿼리 가능도 모델링으로 성능 향상
장 Hengran 등 연구진은 LLM의 생성 능력을 활용한 새로운 밀집 검색 모델 LLM-QL을 제시했습니다. 쿼리 가능도 최대화 보조 작업과 AS, IC 기법을 통해 MSMARCO 데이터셋에서 기존 모델보다 우수한 성능을 달성, LLM 기반 밀집 검색 분야에 중요한 기여를 했습니다.

최근 정보 검색(IR) 분야에서 밀집 검색(Dense Retrieval)의 중요성이 커지고 있습니다. 밀집 검색은 재순위 지정과 같은 후속 작업의 기반이 되기 때문이죠. 이러한 흐름 속에서 거대 언어 모델(LLM)이 주목받고 있습니다. LLM은 뛰어난 의미 이해 능력을 보여주며 밀집 검색 연구에 새로운 가능성을 열고 있죠. 하지만 기존의 디코더 스타일 LLM은 토큰에 대한 후속 어텐션이 부족하여 전역 정보 모델링에 어려움을 겪었습니다.
장 Hengran 등 연구진은 이러한 한계를 극복하기 위해 고전적인 단어 기반 언어 모델링 기법인 쿼리 가능도(QL) 모델에서 영감을 얻었습니다. 연구진은 LLM의 생성 능력을 극대화하기 위해 QL 최대화라는 보조 작업을 도입했습니다. 단순히 QL 추정치로 문서를 순위 매기는 대신, 차별적인 검색기를 대조적으로 학습하기 위한 더 나은 백본을 생성하는 것이죠. 연구진은 이 모델을 LLM-QL이라고 명명했습니다.
LLM-QL은 QL 모델링 중 전역 문서 의미를 단일 벡터로 효율적으로 축약하기 위해 두 가지 주요 구성 요소를 사용합니다. 바로 Attention Stop (AS) 와 Input Corruption (IC) 입니다. AS는 예측 토큰의 어텐션을 문서의 끝 토큰까지 이전 토큰으로 제한합니다. IC는 예측 중 입력 문서의 일부 토큰을 마스킹합니다.
MSMARCO 데이터셋을 이용한 실험 결과는 놀랍습니다. LLM-QL은 다른 LLM 기반 검색 모델보다 훨씬 뛰어난 성능을 달성했습니다. 뿐만 아니라 LLM-QL에 의해 추정된 QL을 순위 매기는 데 사용하면 단어 기반 QL보다 훨씬 더 나은 성능을 보였습니다. 이는 LLM 기반 밀집 검색의 새로운 가능성을 제시하는 획기적인 연구 결과라 할 수 있습니다.
이 연구는 밀집 검색 분야에 새로운 지평을 열었을 뿐만 아니라, LLM의 활용 방식에 대한 새로운 시각을 제공합니다. LLM의 생성 능력을 효과적으로 활용하는 방법에 대한 중요한 통찰력을 제공하는 동시에, 향후 연구 방향을 제시하는 중요한 이정표가 될 것입니다. 앞으로 LLM-QL을 기반으로 한 더욱 발전된 검색 기술의 등장을 기대해 볼 수 있습니다! 🎉
Reference
[arxiv] Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling
Published: (Updated: )
Author: Hengran Zhang, Keping Bi, Jiafeng Guo, Xiaojie Sun, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng
http://arxiv.org/abs/2504.05216v1