딥러닝 기반 영상 품질 평가의 혁신: OmniVQA 프레임워크


본 기사는 Jia Ziheng 등 15명의 연구진이 개발한 OmniVQA 프레임워크에 대한 내용을 다룹니다. OmniVQA는 VQA 분야의 데이터 부족 문제를 해결하기 위해 인간 참여형 MIDB를 효율적으로 구축하고, 대규모 데이터셋(OmniVQA-Chat-400K, OmniVQA-MOS-20K)과 보완적 학습 전략, OmniVQA-FG 벤치마크를 통해 최첨단 성능을 달성한 혁신적인 프레임워크입니다.

related iamge

최근 대규모 다중 모달 모델(LMM) 의 발전은 다양한 분야에 혁신을 가져왔습니다. 하지만 영상 품질 평가(VQA) 분야에서는 여전히 데이터 부족이라는 난관에 직면해 있습니다. Jia Ziheng 등 15명의 연구진은 이 문제를 해결하기 위해 획기적인 프레임워크인 OmniVQA를 제안했습니다.

OmniVQA는 인간 참여형 VQA 다중 모달 지시 데이터베이스(MIDB) 를 효율적으로 구축하는 데 초점을 맞춥니다. 기존의 제한적인 데이터셋의 문제를 극복하고자, 연구진은 OmniVQA-Chat-400K 라는 방대한 데이터셋을 구축했습니다. 이는 VQA 분야에서 가장 큰 MIDB로, 기술적 및 미학적 품질에 대한 풍부한 정보를 담고 있습니다. 여기에 더해, 모델의 정량적 품질 평가 능력을 높이기 위해 OmniVQA-MOS-20K 데이터셋도 함께 개발되었습니다.

단순히 데이터의 양적 확장에 그치지 않고, 연구진은 보완적 학습 전략을 통해 품질 이해와 품질 평가 과제 모두에서 데이터셋 간 지식을 효과적으로 활용하는 방법을 제시했습니다. 또한, 모델의 세분화된 성능 평가를 위해 OmniVQA-FG(fine-grain) 벤치마크를 새롭게 개발하여, 그들의 모델이 품질 이해와 평가 과제 모두에서 최첨단 성능을 달성했음을 증명했습니다.

이 연구는 VQA 분야의 발전에 크게 기여할 것으로 기대됩니다. OmniVQA 프레임워크와 대규모 데이터셋의 등장은 더욱 정확하고 효율적인 영상 품질 평가 시스템 구축의 길을 열어줄 뿐만 아니라, 향후 다양한 멀티미디어 기술 발전에도 중요한 영향을 미칠 것으로 예상됩니다. 이를 통해 더욱 혁신적이고 사용자 친화적인 영상 서비스를 기대할 수 있게 되었습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Scaling-up Perceptual Video Quality Assessment

Published:  (Updated: )

Author: Ziheng Jia, Zicheng Zhang, Zeyu Zhang, Yingji Liang, Xiaorong Zhu, Chunyi Li, Jinliang Han, Haoning Wu, Bin Wang, Haoran Zhang, Guanyu Zhu, Qiyong Zhao, Xiaohong Liu, Guangtao Zhai, Xiongkuo Min

http://arxiv.org/abs/2505.22543v1