혁신적인 AI 모델 FRAG: 긴 비디오와 문서 이해의 새로운 지평을 열다
NVIDIA 연구진이 개발한 FRAG는 긴 비디오와 문서 이해를 위한 혁신적인 AI 모델입니다. 기존 LMM을 활용하여 핵심 프레임만 선택적으로 처리함으로써 연산 비용을 줄이고, MLVU, Video-MME, MP-DocVQA 데이터셋에서 최첨단 성능을 달성했습니다. 오픈소스로 공개되어 다양한 분야에 활용될 것으로 기대됩니다.

긴 비디오와 문서, AI가 효율적으로 이해하는 방법: FRAG의 등장
최근 대규모 다중 모달 모델(LMM)은 놀라운 발전을 이루었지만, 긴 비디오나 다 페이지 문서와 같은 긴 입력 데이터를 처리하는 데는 여전히 한계가 있었습니다. 훈련과 추론 과정에서 발생하는 막대한 연산 비용이 성능 향상의 발목을 잡았죠. 하지만 이제, NVIDIA 연구진이 제시한 FRAG(Frame Selection Augmented Generation) 이 그 한계를 뛰어넘는 혁신적인 해결책을 제시합니다.
FRAG은 긴 입력 데이터 전체를 처리하는 대신, 핵심 프레임만 선택적으로 처리하는 전략을 사용합니다. 먼저 각 프레임에 대한 점수를 독립적으로 계산하여 가장 중요한 프레임을 선별하고, 이렇게 선택된 프레임들만을 기반으로 최종 결과물을 생성하는 방식입니다. 이는 긴 문맥 처리 없이도 효율적으로 긴 입력 데이터를 이해할 수 있게 해주는 핵심 기술입니다.
놀랍게도 이 단순해 보이는 접근 방식은 기존의 LMM (LLaVA-OneVision과 InternVL2) 에 적용하여 튜닝 없이도 놀라운 성과를 거두었습니다. 실험 결과, FRAG는 MLVU와 Video-MME 데이터셋에서 InternVL2-76B 모델의 성능을 각각 5.8%, 3.7% 향상시켰고, MP-DocVQA 데이터셋에서는 최신 LMM 대비 20% 이상의 성능 향상을 보였습니다. 이는 FRAG가 긴 비디오와 문서 이해 분야에서 최첨단 기술임을 입증하는 결과입니다.
핵심은 무엇일까요? 바로 효율성입니다. FRAG은 긴 입력 데이터 전체를 처리하지 않고 핵심 정보만 추출하여 처리함으로써 연산 비용을 획기적으로 줄였습니다. 이는 더욱 강력하고 효율적인 AI 모델 개발의 가능성을 열어줍니다.
앞으로의 전망은? FRAG의 오픈소스 공개(https://github.com/NVlabs/FRAG)를 통해, 더 많은 연구자들이 이 기술을 활용하여 다양한 분야에 적용할 수 있을 것으로 예상됩니다. 특히, 비디오 분석, 문서 이해, 그리고 더 나아가 다양한 대규모 멀티모달 데이터 처리 분야에서 혁신적인 발전을 가져올 것으로 기대됩니다.
이러한 성과는 단순히 기술적인 발전을 넘어, AI가 더욱 광범위하고 실질적으로 활용될 수 있는 가능성을 제시한다는 점에서 그 의미가 매우 크다고 할 수 있습니다. FRAG의 등장은 긴 비디오와 문서 이해의 새로운 지평을 열었다고 평가할 수 있습니다.
Reference
[arxiv] FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding
Published: (Updated: )
Author: De-An Huang, Subhashree Radhakrishnan, Zhiding Yu, Jan Kautz
http://arxiv.org/abs/2504.17447v1