PerceptionLM: 자세한 시각적 이해를 위한 오픈 액세스 데이터 및 모델


PerceptionLM은 27명의 연구진이 개발한 오픈 액세스 시각 언어 모델로, 폐쇄적인 기존 모델들의 한계를 극복하고, 280만 개의 고품질 영상 데이터와 PLM-VideoBench라는 새로운 벤치마크를 제공하여 컴퓨터 비전 분야의 발전에 크게 기여할 것으로 기대됩니다.

related iamge

혁신적인 시각적 이해 모델, PerceptionLM의 등장

컴퓨터 비전 분야의 획기적인 발전을 이끈 장현초 박사님을 비롯한 27명의 연구진이 개발한 PerceptionLM은, 그동안 베일에 가려져 있던 고성능 시각 언어 모델의 한계를 극복하고, 연구의 투명성과 재현성을 높이는 데 기여할 혁신적인 모델입니다. 기존의 많은 고성능 모델들이 폐쇄적인 형태로 운영되면서 데이터, 설계, 훈련 과정 등의 정보 접근이 제한되었던 문제점을 해결하기 위해, PerceptionLM은 모든 데이터, 훈련 레시피, 코드, 모델을 공개하는 완전한 오픈소스 형태로 개발되었습니다.

폐쇄형 모델의 한계를 넘어: 과학적 진보를 위한 도약

연구진은 기존의 폐쇄형 모델에서 얻은 결과를 활용하여 데이터에 라벨을 부여하는 방식 대신, 자체적으로 대규모 데이터셋을 구축하고 투명한 훈련 과정을 통해 모델을 개발했습니다. 이는 단순히 성능 향상에만 집중하는 것이 아니라, 연구 과정 자체의 투명성과 재현성을 확보함으로써 과학적 진보를 위한 견고한 기반을 마련했다는 점에서 큰 의미를 가집니다. 특히, 자세한 영상 이해를 위해서는 280만 개의 정밀한 영상 질문-답변 쌍 및 공간-시간적 기반의 영상 자막 데이터를 새롭게 제공하여 기존의 데이터 한계를 극복했습니다.

PLM-VideoBench: 더욱 정교한 평가를 위한 새로운 벤치마크

PerceptionLM은 단순히 모델을 공개하는 것에 그치지 않고, '무엇', '어디', '언제', '어떻게' 와 같은 다양한 질문에 대한 답변 능력을 평가하는 PLM-VideoBench라는 새로운 벤치마크를 함께 제공합니다. 이를 통해, 모델의 성능을 더욱 섬세하고 다각적으로 평가할 수 있게 되었습니다. 이는 향후 시각 언어 모델의 발전 방향을 제시하고, 더욱 정교하고 유용한 모델 개발을 위한 중요한 기준이 될 것입니다.

미래를 향한 도약: 오픈 사이언스의 정신

PerceptionLM은 단순히 하나의 모델이 아니라, 오픈 사이언스의 정신을 구현한 중요한 사례입니다. 모든 정보를 공개함으로써 다른 연구자들의 참여와 발전을 촉진하고, 궁극적으로 컴퓨터 비전 분야의 발전에 크게 기여할 것으로 기대됩니다. PerceptionLM의 등장은 더욱 투명하고 공유적인 연구 환경 조성을 위한 중요한 이정표가 될 것입니다. 앞으로도 이러한 오픈 액세스 정신을 바탕으로 한 연구들이 더욱 활발히 진행되어, 인공지능 기술 발전에 긍정적인 영향을 미치기를 기대합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Published:  (Updated: )

Author: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

http://arxiv.org/abs/2504.13180v1