숨바꼭질하는 객체도 찾아낸다! CamSAM2: 카모플라주 영상에서의 정확한 객체 분할


CamSAM2는 기존 SAM2 모델의 한계를 극복하여 카모플라주 영상에서의 객체 분할 성능을 크게 향상시킨 알고리즘입니다. 소량의 파라미터 추가만으로도 뛰어난 성능 향상을 달성하여 효율성이 높으며, 실제 응용 분야에서의 활용 가능성을 높였습니다.

related iamge

숨바꼭질하는 객체도 찾아낸다! CamSAM2: 카모플라주 영상에서의 정확한 객체 분할

카모플라주된 물체는 주변 환경과 완벽하게 섞여 눈에 잘 띄지 않습니다. 이러한 물체를 영상에서 정확하게 분할하는 것은 자율주행, 의료 영상 분석 등 다양한 분야에서 매우 중요한 과제입니다. 최근 SAM2와 같은 영상 분할 모델의 등장으로 큰 발전이 있었지만, 카모플라주된 물체를 정확하게 분할하는 데는 여전히 어려움이 있었습니다. 특히, 단순한 점이나 상자와 같은 힌트만으로는 정확한 분할이 어려웠죠.

Zhou Yuli를 비롯한 연구팀은 이러한 문제를 해결하기 위해 CamSAM2를 제안했습니다. CamSAM2는 기존 SAM2 모델을 수정하지 않고, **'탈카모플라주 토큰(decamouflaged token)'**을 도입하여 카모플라주된 영상에서의 객체 분할 성능을 향상시켰습니다. 이 토큰은 특징 조정의 유연성을 제공하여 카모플라주된 물체를 더욱 효과적으로 구분하도록 돕습니다.

또한, 현재 프레임과 이전 프레임의 고해상도 특징을 효과적으로 활용하기 위해 암시적 객체 인식 융합(IOF)명시적 객체 인식 융합(EOF) 모듈을 제안했습니다. 객체 원형 생성(OPG) 모듈은 이전 프레임의 고품질 특징을 사용하여 객체의 원형을 추출하고 기억하여 분할 정확도를 높입니다.

다양한 실험 결과, CamSAM2는 SAM2에 거의 무시할 만한 수준의 파라미터만 추가했음에도 불구하고, MoCA-Mask 데이터셋에서 클릭 프롬프트를 사용한 경우 12.2 mDice, SUN-SEG-Hard 데이터셋에서 마스크 프롬프트를 사용한 경우 19.6 mDice의 성능 향상을 달성했습니다. 이는 상당히 놀라운 결과입니다. Hiera-T 백본 네트워크를 사용했으며, 코드는 GitHub에서 공개되어 누구나 활용할 수 있습니다.

CamSAM2는 단순한 기술적 발전을 넘어, 실제 응용 분야에서 카모플라주된 객체를 정확하게 인식하고 처리하는 데 중요한 도약을 의미합니다. 앞으로 더욱 발전된 기술을 통해, 우리는 영상 분석 분야에서 더욱 복잡하고 어려운 문제들을 해결할 수 있을 것입니다. 이는 단순히 기술적인 진보를 넘어, 우리의 삶을 더욱 안전하고 편리하게 만들어 줄 가능성을 보여줍니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] CamSAM2: Segment Anything Accurately in Camouflaged Videos

Published:  (Updated: )

Author: Yuli Zhou, Guolei Sun, Yawei Li, Yuqian Fu, Luca Benini, Ender Konukoglu

http://arxiv.org/abs/2503.19730v2