네이버, RAG 파이프라인의 혁신: OSCAR로 속도와 정확도를 동시에 잡다!


네이버 연구진이 개발한 OSCAR은 RAG 파이프라인의 속도와 정확도 문제를 동시에 해결한 혁신적인 기술입니다. 온라인 소프트 압축과 재순위 지정 기능을 통해 2~5배의 속도 향상과 최소한의 정확도 손실을 달성했습니다.

related iamge

네이버의 획기적인 RAG 파이프라인 최적화 기술, OSCAR 소개

최근, 대규모 언어 모델(LLM)의 성능 향상에 혁신을 가져온 기술 중 하나가 바로 검색 증강 생성(Retrieval-Augmented Generation, RAG)입니다. RAG는 외부 지식을 LLM에 통합하여 정확성과 관련성을 높이는데 효과적이지만, 검색 결과의 크기가 커짐에 따라 계산 비용이 기하급수적으로 증가하는 문제점이 있었습니다.

하지만, 네이버 연구진(Maxime Louis, Thibault Formal, Hervé Dejean, Stéphane Clinchant)이 개발한 OSCAR(Online Soft Compression And Reranking) 은 이러한 문제를 해결하는 획기적인 기술입니다. OSCAR은 쿼리에 따라 동적으로 검색 정보를 압축하는 온라인 소프트 압축 방법을 사용하여, 기존의 하드 압축 방식이나 오프라인 소프트 압축 방식의 단점을 극복합니다. 기존 방법들은 검색 결과 텍스트를 단순히 줄이거나, 문서를 연속적인 임베딩으로 미리 매핑하는 방식으로 저장 공간 부담과 압축률 한계를 가지고 있었습니다.

OSCAR의 핵심은 추론 시점에 동적으로 압축을 수행하여 저장 공간 오버헤드를 제거하고, 더 높은 압축률을 달성하는 데 있습니다. 뿐만 아니라, OSCAR은 동시에 재순위 지정(reranking) 기능을 수행하여 RAG 파이프라인의 효율성을 더욱 높입니다.

실험 결과, OSCAR은 10억에서 240억 파라미터에 이르는 다양한 LLM에서 2~5배의 추론 속도 향상을 달성하면서도 정확도 손실은 최소화했습니다. 이는 RAG 파이프라인의 실용성을 크게 높이는 성과입니다. 해당 모델은 Hugging Face에서 확인 가능합니다.

OSCAR은 RAG 기반 응용 프로그램의 성능 향상에 크게 기여할 것으로 예상되며, 향후 LLM 기반 서비스의 발전에 중요한 역할을 할 것으로 기대됩니다. 이는 단순한 속도 향상을 넘어, 더욱 효율적이고 확장 가능한 LLM 기반 서비스 구축을 위한 중요한 이정표가 될 것입니다. 네이버의 지속적인 연구 개발에 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] OSCAR: Online Soft Compression And Reranking

Published:  (Updated: )

Author: Maxime Louis, Thibault Formal, Hervé Dejean, Stéphane Clinchant

http://arxiv.org/abs/2504.07109v1