CVPR 2025 PVUW 챌린지에서 2위를 차지한 MASSeg: 복잡한 영상 객체 분할의 새로운 지평
카오 슈창 등 6명의 연구진이 개발한 MASSeg 모델은 CVPR 2025 PVUW 챌린지 MOSE 트랙에서 2위를 차지하며, 복잡한 영상 객체 분할 분야의 새로운 가능성을 열었습니다. MOSE+ 데이터셋 구축, 프레임 간 일관성 및 불일관성 데이터 증강, 마스크 출력 스케일링 전략 등 혁신적인 기술을 통해 우수한 성능을 달성했습니다.

CVPR 2025 PVUW 챌린지에서 2위를 차지한 MASSeg: 복잡한 영상 객체 분할의 새로운 지평
카오 슈창, 저우 린난, 저우 자아시안, 리우 팡, 천 푸화, 마 원핑 등 6명의 연구진이 이끄는 연구팀이 MASSeg이라는 혁신적인 모델을 통해 복잡한 영상 객체 분할 분야에서 놀라운 성과를 달성했습니다. CVPR 2025 PVUW 챌린지 MOSE 트랙에서 2위를 기록하며, 소형 객체 인식, 폐색 처리, 동적 장면 모델링과 같은 난제에 대한 새로운 해결책을 제시했습니다.
기존 모델의 한계를 뛰어넘다:
기존의 영상 객체 분할 프레임워크를 기반으로 개발된 MASSeg는 단순히 기존 모델을 개선한 것이 아닙니다. 연구팀은 MOSE+ 라는 새로운 데이터셋을 구축하여 폐색, 복잡한 배경, 소형 객체 등 다양한 어려운 시나리오를 포함시켰습니다. 이를 통해 모델의 강건성과 일반화 능력을 향상시킬 수 있었습니다. 특히, 프레임 간 일관성 및 불일관성 데이터 증강 전략을 결합하여 훈련 과정을 강화했습니다. 이러한 전략은 모델이 다양한 상황에 더욱 효과적으로 대응할 수 있도록 돕습니다.
추론 전략의 혁신:
MASSeg는 추론 단계에서도 혁신적인 기술을 적용했습니다. 마스크 출력 스케일링 전략을 통해 다양한 객체 크기와 폐색 수준에 더욱 효과적으로 적응할 수 있도록 설계되었습니다. 이는 작은 객체나 부분적으로 가려진 객체의 정확한 분할에 큰 도움이 됩니다.
놀라운 결과:
그 결과, MASSeg는 MOSE 테스트 세트에서 놀라운 성능을 기록했습니다. J 점수 0.8250, F 점수 0.9007, J&F 점수 0.8628을 달성하며 복잡한 영상 객체 분할 분야의 새로운 기준을 제시했습니다.
결론:
MASSeg는 데이터 증강 전략과 혁신적인 추론 전략을 통해 복잡한 영상 객체 분할 문제에 대한 효과적인 해결책을 제시합니다. 이 연구는 소형 객체 인식, 폐색 처리, 동적 장면 모델링 등의 난제 해결에 기여하며, 앞으로의 영상 객체 분할 기술 발전에 중요한 이정표를 세웠습니다. 연구팀의 노력은 AI 분야의 끊임없는 발전을 보여주는 좋은 사례입니다.
Reference
[arxiv] MASSeg : 2nd Technical Report for 4th PVUW MOSE Track
Published: (Updated: )
Author: Xuqiang Cao, Linnan Zhao, Jiaxuan Zhao, Fang Liu, Puhua Chen, Wenping Ma
http://arxiv.org/abs/2504.10254v1