YOLOv12: 어텐션 중심의 실시간 객체 탐지기의 혁신


YOLOv12는 어텐션 메커니즘을 활용하여 기존 실시간 객체 탐지기의 속도와 정확도를 모두 획기적으로 개선한 새로운 모델입니다. 경쟁 모델들을 압도하는 성능을 보이며, 실시간 객체 탐지 분야의 새로운 기준을 제시했습니다.

related iamge

지난 수년간, YOLO 프레임워크의 네트워크 아키텍처 개선은 주로 CNN 기반의 개선에 집중되어 왔습니다. 하지만, 어텐션 메커니즘이 모델링 능력 면에서 CNN보다 우수하다는 것이 입증되었음에도 불구하고, 어텐션 기반 모델은 CNN 기반 모델의 속도를 따라잡지 못했습니다.

Tian, Ye, 그리고 Doermann이 이끄는 연구팀은 이러한 한계를 극복하기 위해 YOLOv12라는 어텐션 중심의 YOLO 프레임워크를 제안했습니다. YOLOv12는 기존 CNN 기반 모델과 동등한 속도를 유지하면서 어텐션 메커니즘의 성능 향상 효과를 활용합니다.

결과는 놀랍습니다. YOLOv12는 모든 인기 있는 실시간 객체 탐지기들 중에서 가장 높은 정확도를 달성했습니다. 특히, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 지연 시간으로 40.6% mAP를 달성, YOLOv10-N과 YOLOv11-N보다 각각 2.1%와 1.2% 높은 mAP를 기록하며 비슷한 속도를 유지했습니다. 이러한 성능 향상은 다른 모델 크기에서도 일관되게 나타났습니다.

더욱 놀라운 것은, YOLOv12가 RT-DETR이나 RT-DETRv2와 같은 end-to-end 실시간 탐지기와 비교했을 때도 뛰어난 성능을 보였다는 점입니다. YOLOv12-S는 RT-DETR-R18과 RT-DETRv2-R18보다 42% 빠른 속도로 동작하면서, 계산량은 36%, 파라미터 수는 45%만 사용했습니다. (자세한 비교 결과는 그림 1 참조)

YOLOv12의 등장은 실시간 객체 탐지 분야에 새로운 기준을 제시합니다. 속도와 정확도라는 두 마리 토끼를 모두 잡은 YOLOv12는 자율주행, 로봇 공학, 의료 영상 분석 등 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 앞으로 어텐션 메커니즘 기반의 객체 탐지 기술이 어떻게 발전해 나갈지 주목할 필요가 있습니다.

(그림 1은 논문에 제시된 비교 결과 그래프를 삽입해야 합니다.)


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] YOLOv12: Attention-Centric Real-Time Object Detectors

Published:  (Updated: )

Author: Yunjie Tian, Qixiang Ye, David Doermann

http://arxiv.org/abs/2502.12524v1