멀티 모달리티, 멀티 그레인 RAG 시대의 개막: UniversalRAG 등장
연세대학교 연구팀이 개발한 UniversalRAG은 다양한 모달리티와 입자성을 가진 여러 말뭉치를 활용하여 기존 RAG의 한계를 극복한 혁신적인 프레임워크입니다. 모달리티 인식 라우팅 메커니즘을 통해 효율적인 검색을 수행하며, 다양한 벤치마크에서 우수한 성능을 입증했습니다.

최근 몇 년간, 인공지능 분야에서 Retrieval-Augmented Generation (RAG) 기술이 괄목할 만한 발전을 이루었습니다. RAG는 외부 지식을 활용하여 모델의 응답 정확도를 높이는 기술로, 특히 사실성이 중요한 응답이 필요한 분야에서 주목받고 있습니다. 하지만 기존 RAG 접근 방식은 대부분 텍스트 기반 말뭉치에 국한되어 있었고, 이미지나 비디오와 같은 다른 모달리티로 확장된 경우에도 단일 모달리티에 특화된 말뭉치만을 사용하는 한계를 가지고 있었습니다.
여기서 핵심 문제는 실제 질의는 다양한 유형의 지식을 필요로 하며, 단일 지식 원천으로는 이를 충족할 수 없다는 점입니다. 예를 들어, “에펠탑의 높이와 건축 양식”이라는 질의에는 텍스트 정보와 이미지 정보가 모두 필요합니다. 이러한 문제를 해결하기 위해, 연세대학교 연구팀(여웅영, 김강산, 정소영, 백진헌, 황성주)은 혁신적인 RAG 프레임워크인 UniversalRAG를 개발했습니다.
UniversalRAG은 다양한 모달리티(텍스트, 이미지, 비디오 등)와 입자성(세부적인 정보부터 개괄적인 정보까지)을 가진 여러 말뭉치에서 지식을 검색하고 통합하도록 설계되었습니다. 연구팀은 모든 모달리티를 단일 말뭉치에서 파생된 통합 표현 공간으로 강제 변환하는 것이 모달리티 간 불균형을 초래한다는 점을 발견했습니다. 이는 특정 모달리티의 질의에 대해 동일한 모달리티의 정보만을 선호하는 편향된 검색 결과를 야기합니다.
이러한 문제를 해결하기 위해, UniversalRAG은 모달리티 인식 라우팅 메커니즘을 도입했습니다. 이 메커니즘은 질의에 가장 적합한 모달리티 특화 말뭉치를 동적으로 식별하고, 해당 말뭉치 내에서만 표적 검색을 수행하여 효율성을 높입니다. 또한, 각 모달리티를 여러 입자성 수준으로 구성하여, 질의의 복잡성과 범위에 맞춘 미세 조정된 검색을 가능하게 합니다.
연구팀은 8개의 다양한 벤치마크를 통해 UniversalRAG의 우수성을 검증했습니다. 그 결과, UniversalRAG는 모달리티 특화 및 통합 기준 모델보다 뛰어난 성능을 보였습니다. 이는 UniversalRAG가 다양한 유형의 질의에 대한 정확하고 포괄적인 응답을 제공할 수 있음을 시사합니다.
UniversalRAG의 등장은 RAG 기술의 새로운 장을 열었습니다. 앞으로 더욱 다양한 모달리티와 지식원을 통합하고, 더욱 정교한 검색 및 지식 통합 전략을 통해, 인공지능의 지식 활용 능력이 크게 향상될 것으로 기대됩니다. 이는 궁극적으로 사용자에게 더욱 정확하고 유용한 정보를 제공하는데 기여할 것입니다.
Reference
[arxiv] UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities
Published: (Updated: )
Author: Woongyeong Yeo, Kangsan Kim, Soyeong Jeong, Jinheon Baek, Sung Ju Hwang
http://arxiv.org/abs/2504.20734v1