ReFoCUS: 강화 학습 기반 프레임 최적화를 통한 맥락적 이해 혁신


ReFoCUS는 강화학습을 활용하여 비디오 이해를 위한 최적의 프레임 선택을 자동화하는 새로운 프레임워크입니다. 기존 방식의 한계를 극복하고, 여러 비디오 QA 벤치마크에서 성능 향상을 보였습니다.

related iamge

비디오 이해의 새로운 지평: ReFoCUS

최근 대규모 다중 모달 모델(LMM)의 눈부신 발전은 비전-언어 추론의 새로운 가능성을 열었습니다. 하지만 비디오 콘텐츠의 이해는 여전히 넘어야 할 산입니다. 기존의 접근 방식은 정적인 휴리스틱이나 외부 검색 모듈에 의존하여 비디오-LLM에 프레임 정보를 제공하는데, 이는 질의와 관련된 정보를 제대로 제공하지 못하는 경우가 많았습니다.

이러한 문제를 해결하기 위해 이호수, 김준호, 김현준, 로용만 연구팀은 ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding) 라는 혁신적인 프레임워크를 제시했습니다. ReFoCUS는 프레임 선택 정책 최적화의 목표를 텍스트 응답이 아닌 시각적 입력 선택으로 전환합니다. 즉, 모델이 비디오에서 어떤 프레임을 선택해야 질문에 가장 잘 답할 수 있는지를 학습하는 것입니다.

ReFoCUS는 강화 학습을 통해 프레임 선택 정책을 학습합니다. 참고 LMM에서 파생된 보상 신호를 사용하여 시간적 맥락을 고려한 응답에 가장 적합한 프레임을 선택하도록 모델을 유도합니다. 방대한 프레임 조합 공간을 효율적으로 탐색하기 위해 자동 회귀 조건부 선택 아키텍처를 채택, 시간적 일관성을 유지하면서 복잡성을 줄였습니다. 특히 ReFoCUS는 프레임 수준에서 명시적인 감독 없이도 작동합니다.

연구 결과, ReFoCUS는 여러 비디오 QA 벤치마크에서 일관되게 추론 성능을 향상시켰습니다. 이는 모델 내부 유틸리티와 프레임 선택을 일치시키는 접근 방식의 효과를 명확히 보여주는 결과입니다. ReFoCUS는 단순히 프레임을 선택하는 것을 넘어, 모델이 비디오를 '이해'하는 방식에 대한 새로운 패러다임을 제시합니다. 앞으로 비디오 이해 분야에 큰 영향을 미칠 것으로 기대됩니다.

핵심: ReFoCUS는 강화학습 기반의 지능적인 프레임 선택을 통해 비디오 이해의 정확성과 효율성을 획기적으로 개선한 혁신적인 기술입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Published:  (Updated: )

Author: Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

http://arxiv.org/abs/2506.01274v1