MambaNeXt-YOLO: 실시간 객체 탐지의 새로운 지평을 열다


Lei Xiaochun 등 연구팀이 개발한 MambaNeXt-YOLO는 CNN과 Mamba를 결합한 하이브리드 모델로, 실시간 객체 탐지에서 높은 정확도와 효율성을 동시에 달성했습니다. 에지 디바이스에서의 구동도 가능하여 다양한 분야에 응용될 가능성이 높습니다.

related iamge

MambaNeXt-YOLO: 실시간 객체 탐지의 새로운 지평을 열다

컴퓨터 비전 분야에서 실시간 객체 탐지는 매우 중요하지만, 특히 제한된 계산 자원 환경에서는 어려운 과제입니다. YOLO 시리즈 모델은 속도와 정확성의 균형을 잘 맞춰 높은 성능을 보여주었지만, 더욱 풍부한 전역적 맥락 모델링의 필요성이 대두되면서 Transformer 기반 아키텍처가 주목받고 있습니다. 하지만 Transformer의 자기 주의 메커니즘은 높은 계산 복잡도를 가져와 실시간 및 에지 배포에는 한계가 있었습니다.

Lei Xiaochun, Wu Siqi, Wu Weilin, Jiang Zetao 연구팀은 이러한 문제를 해결하기 위해 MambaNeXt-YOLO를 제안합니다. MambaNeXt-YOLO는 세 가지 주요한 기여를 통해 정확성과 효율성의 균형을 훌륭하게 달성했습니다.

첫째, MambaNeXt 블록: CNN과 Mamba를 통합한 하이브리드 설계를 통해 국소적 특징과 장거리 의존성을 효과적으로 포착합니다. 이는 CNN의 우수한 국소 특징 추출 능력과 Mamba의 효율적인 시퀀스 모델링 능력을 결합한 혁신적인 시도입니다.

둘째, 다중 분기 비대칭 융합 피라미드 네트워크 (MAFPN): 다양한 크기의 객체에 대한 다중 스케일 객체 탐지를 개선하는 향상된 특징 피라미드 아키텍처입니다. 다양한 크기의 물체를 효과적으로 탐지할 수 있도록 설계되었습니다.

셋째, 에지 중심 효율성: 사전 훈련 없이 PASCAL VOC 데이터셋에서 31.9 FPS로 66.6% mAP를 달성했으며, NVIDIA Jetson Xavier NX 및 Orin NX와 같은 에지 디바이스에서 배포가 가능합니다. 이는 실제 환경에서의 실시간 객체 탐지 가능성을 크게 높이는 결과입니다.

MambaNeXt-YOLO는 단순히 속도와 정확성의 절충안을 제시하는 것이 아니라, CNN과 Mamba의 시너지를 통해 효율성과 정확성이라는 두 마리 토끼를 모두 잡은 획기적인 연구입니다. 특히 에지 디바이스에서의 실시간 객체 탐지를 가능하게 함으로써 자율주행, 로봇공학, 스마트 시티 등 다양한 분야에 혁신적인 영향을 미칠 것으로 예상됩니다. 향후 이 연구가 더욱 발전하여 더욱 정확하고 빠른 실시간 객체 탐지 기술로 이어지기를 기대합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection

Published:  (Updated: )

Author: Xiaochun Lei, Siqi Wu, Weilin Wu, Zetao Jiang

http://arxiv.org/abs/2506.03654v2