한계 돌파! 분산형 RAG 프레임워크 DRAGON으로 소형 언어 모델 성능 극대화


소형 언어 모델(SLM)의 성능 향상을 위한 분산형 RAG 프레임워크 DRAGON이 개발되었습니다. 클라우드와 기기 간의 효율적인 데이터 처리를 통해 개인 정보 유출 위험 없이 일반 및 개인 지식을 활용하며, 실제 하드웨어 테스트에서 기존 방식 대비 최대 1.9배의 성능 향상과 짧은 응답 시간을 기록했습니다.

related iamge

최근 소형 언어 모델(SLM)이 자원 제약이 있는 에지 기기에서 효율적인 배포를 지원하며 주목받고 있지만, 용량의 한계로 인해 추론 성능이 저하되는 문제점이 존재합니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 검색 증강 생성(RAG) 기술입니다. RAG는 외부 데이터베이스를 통합하여 모델 성능을 향상시키는 유망한 솔루션으로, 집중적인 기기 내 모델 재훈련 없이도 성능 향상을 가져옵니다.

하지만 대규모 공용 데이터베이스와 사용자 특정 개인 컨텍스트 문서는 일반적으로 클라우드와 기기에 분리되어 저장됩니다. 기존 RAG 구현 방식은 대부분 중앙 집중식이기 때문에 클라우드와 기기 간 효율적인 데이터 연동에 어려움을 겪습니다.

여기서 혁신적인 기술이 등장합니다! 상유류, 정전제, 황효요, 무판, 무제 등 연구진이 개발한 DRAGON이라는 분산형 RAG 프레임워크입니다. DRAGON은 일반 지식과 개인 지식을 모두 활용하여 기기 상의 SLM 성능을 향상시키는 동시에 문서 개인 정보 유출 위험을 최소화합니다.

DRAGON의 핵심은 다중 문서 RAG를 클라우드와 기기에서 독립적이고 지역적으로 수행되는 여러 개의 병렬 토큰 생성 프로세스로 분해하는 데 있습니다. 여기에 더해, 클라우드와 기기 간 빈번한 출력 동기화를 피하기 위해 새롭게 설계된 예측적 집계(Speculative Aggregation) 알고리즘을 사용합니다. 실시간 네트워크 상태에 따라 최적의 집계 측면을 식별하는 새로운 스케줄링 알고리즘도 도입되었습니다.

실제 하드웨어 테스트 결과는 놀랍습니다! DRAGON은 독립형 SLM에 비해 최대 1.9배의 성능 향상을 보였으며, 중앙 집중식 RAG보다 훨씬 짧은 토큰당 지연 시간을 달성했습니다. 또한, 첫 번째 토큰까지의 시간(TTFT) 오버헤드는 무시할 만한 수준입니다.

DRAGON은 단순한 성능 향상을 넘어, 개인 정보 보호와 효율성을 동시에 고려한 혁신적인 기술로, 소형 언어 모델의 활용 범위를 획기적으로 확장할 것으로 기대됩니다. 앞으로 DRAGON을 기반으로 더욱 발전된 기술들이 등장할 가능성에 기대하며 지켜볼 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance

Published:  (Updated: )

Author: Shangyu Liu, Zhenzhe Zheng, Xiaoyao Huang, Fan Wu, Jie Wu

http://arxiv.org/abs/2504.11197v1