꿈의 영상 객체 분할 기술, STSeg 등장! 2025 PVUW MOSE 챌린지 석권!
imaplus 팀의 STSeg 솔루션이 2025 PVUW MOSE 챌린지에서 1위를 차지하며, 복잡한 영상 객체 분할 기술 분야에 혁신을 일으켰습니다. SAM2와 TMO 모델의 미세 조정 및 적응형 의사 레이블 기반 모델 개선 파이프라인을 통해 뛰어난 성능을 달성했습니다.

끊임없이 움직이는 물체, 복잡하게 얽히고설키는 배경… 영상 속 객체를 정확하게 분할하는 것은 인공지능 분야의 오랜 숙제였습니다. 하지만 이제, 그 숙제에 대한 획기적인 해답이 등장했습니다! Song Kehuan 등 6명의 연구원으로 이루어진 'imaplus' 팀이 개발한 STSeg 솔루션이 바로 그 주인공입니다.
STSeg는 2025년 4회 PVUW 챌린지 MOSE 트랙에서 놀라운 성적을 거두며 1위를 차지했습니다. J&F 점수 87.26%라는 경이로운 수치는, STSeg가 얼마나 정교하고 효율적인 영상 객체 분할 기술인지를 보여줍니다. 그 비결은 무엇일까요?
핵심은 바로 SAM2와 TMO 모델의 미세 조정과 적응형 의사 레이블 기반 모델 개선 파이프라인에 있습니다. MOSE 데이터셋을 활용하여 SAM2(Segment Anything Model 2)와 비지도 학습 모델인 TMO를 미세 조정함으로써, 복잡한 객체의 움직임과 긴 영상 시퀀스에서도 뛰어난 성능을 발휘할 수 있도록 했습니다.
특히, 추론 단계에서 사용된 적응형 의사 레이블 기반 모델 개선 파이프라인은 각 영상에 가장 적합한 모델을 선택하여 처리함으로써 효율성을 극대화했습니다. 마치 사람처럼 상황에 맞춰 최적의 판단을 내리는 것과 같은 셈입니다.
STSeg의 성공은 단순한 기술적 진보를 넘어, 복잡한 현실 세계의 영상 데이터를 효과적으로 처리하는 새로운 가능성을 열었습니다. 자율주행, 의료 영상 분석, 보안 시스템 등 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 이 놀라운 기술의 발전은 앞으로 어떤 미래를 만들어낼까요? 계속해서 지켜볼 가치가 충분합니다. 🎉
[참고]
- MOSE 데이터셋: 복잡한 영상 객체 분할 연구에 기여하는 대규모 데이터셋
- J&F 점수: 영상 객체 분할 성능 평가 지표
- SAM2: 최첨단 영상 분할 모델
- TMO: 비지도 학습 기반 영상 분할 모델
Reference
[arxiv] STSeg-Complex Video Object Segmentation: The 1st Solution for 4th PVUW MOSE Challenge
Published: (Updated: )
Author: Kehuan Song, Xinglin Xie, Kexin Zhang, Licheng Jiao, Lingling Li, Shuyuan Yang
http://arxiv.org/abs/2504.08306v1