드래곤(DRAGON): 에지 디바이스의 혁신을 불러일으킬 AI 언어 모델
소형 언어 모델의 성능 향상을 위해 개발된 분산형 RAG 프레임워크 DRAGON은 클라우드와 에지 디바이스 간의 병렬 처리 및 지능형 스케줄링을 통해 성능을 향상시키고 개인 정보 보호를 강화합니다. 실제 테스트 결과, 기존 방식 대비 최대 1.9배의 성능 향상을 보였으며, 지연 시간 단축 및 TTFT 오버헤드 감소 효과를 확인했습니다.

소형 언어 모델(SLM)은 자원 제약이 심한 에지 디바이스에서 효율적인 배포가 가능하지만, 용량의 한계로 인해 추론 성능이 저하되는 문제점을 가지고 있습니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 검색 증강 생성(RAG) 기술입니다. RAG는 외부 데이터베이스를 통합하여 모델의 성능을 향상시키지만, 대규모 공개 데이터베이스와 사용자 개인의 정보는 일반적으로 클라우드와 디바이스에 분리되어 저장되어 있어 기존 RAG 구현 방식은 중앙 집중식에 머물러 있었습니다.
상유류(Shangyu Liu) 등 6명의 연구원이 개발한 DRAGON은 이러한 문제점을 해결하기 위해 탄생한 분산형 RAG 프레임워크입니다. DRAGON은 일반적인 지식과 개인적인 지식 모두를 활용하여 에지 디바이스의 SLM 성능을 향상시키면서 동시에 문서의 개인 정보 유출 위험을 최소화합니다.
DRAGON의 핵심은 다중 문서 RAG를 여러 개의 병렬 토큰 생성 프로세스로 분해하여 클라우드와 디바이스에서 독립적으로 처리하는 데 있습니다. 여기서 핵심 알고리즘은 예측적 집계(Speculative Aggregation) 으로, 클라우드와 디바이스 간의 잦은 출력 동기화를 피합니다. 또한, 실시간 네트워크 상태에 따라 최적의 집계 방식을 선택하는 새로운 스케줄링 알고리즘을 도입하여 효율성을 극대화합니다.
실제 하드웨어 테스트 결과, DRAGON은 기존 중앙 집중식 RAG에 비해 최대 1.9배의 성능 향상을 보였으며, 토큰당 지연 시간을 크게 줄이고, 첫 토큰 생성 시간(TTFT) 오버헤드는 무시할 수 있을 정도로 낮은 것으로 나타났습니다. 이는 에지 디바이스에서의 SLM 활용에 있어 획기적인 발전이라고 할 수 있습니다. DRAGON은 단순히 성능만 향상시킨 것이 아니라, 개인 정보 보호와 효율성을 동시에 고려한 실용적인 솔루션을 제시하여 SLM의 실제 환경 적용 가능성을 크게 높였습니다.
결론적으로, DRAGON은 에지 디바이스의 제한된 자원을 극복하고 개인정보 보호까지 고려한 혁신적인 AI 언어 모델 성능 향상 기술로서, 앞으로 AI 기술 발전에 큰 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance
Published: (Updated: )
Author: Shangyu Liu, Zhenzhe Zheng, Xiaoyao Huang, Fan Wu, Guihai Chen, Jie Wu
http://arxiv.org/abs/2504.11197v2