Caramel LabCaramel Lab

YOLOv12: 어텐션 기반 실시간 객체 탐지기

YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye, David Doermann·ArXiv.org·발표 2025.02· 236 인용
최근 1년 236회 인용· 분야 최상위· 떠오르는 연구

한국어 핵심 요약

YOLO 프레임워크의 네트워크 아키텍처 개선은 오랜 기간 중요한 연구 주제였으나, 어텐션 메커니즘의 우수한 모델링 능력에도 불구하고 속도 문제로 인해 주로 CNN 기반 개선에 집중되어 왔습니다. 본 연구는 어텐션 메커니즘의 성능 이점을 활용하면서도 기존 CNN 기반 모델과 동등한 속도를 달성하는 어텐션 중심 YOLO 프레임워크인 YOLOv12를 제안합니다. YOLOv12는 경쟁력 있는 속도로 모든 인기 있는 실시간 객체 탐지기보다 정확도 면에서 뛰어난 성능을 보입니다. 예를 들어, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 지연 시간으로 40.6% mAP를 달성하여, 유사한 속도의 최신 YOLOv10-N 및 YOLOv11-N보다 각각 2.1%, 1.2% mAP 높은 성능을 보였습니다. 이러한 이점은 다른 모델 스케일에서도 동일하게 나타납니다. YOLOv12는 RT-DETR 및 RT-DETRv2와 같이 DETR을 개선한 종단간 실시간 탐지기보다도 우수합니다. YOLOv12-S는 RT-DETR-R18 및 RT-DETRv2-R18보다 42% 더 빠르게 실행되며, 연산량은 36%, 파라미터 수는 45%만 사용하면서도 더 나은 성능을 달성합니다. 이 연구는 어텐션 메커니즘이 실시간 객체 탐지 분야에서 CNN 기반 모델의 속도 제약을 극복하고 성능을 크게 향상시킬 수 있음을 입증합니다. YOLOv12는 실시간 객체 탐지 분야의 새로운 표준을 제시하며, 다양한 실제 응용 분야에서 활용될 잠재력을 가집니다.

섹션 미리보기

연구 배경

YOLO 프레임워크는 객체 탐지 분야에서 널리 사용되지만, 어텐션 메커니즘의 뛰어난 성능에도 불구하고 속도 문제로 인해 주로 CNN 기반 개선에 집중되어 왔습니다. 어텐션 기반 모델은 CNN 모델만큼 빠른 속도를 내기 어렵다는 한계가 있었습니다.

핵심 발견

YOLOv12는 어텐션 메커니즘의 성능 이점을 유지하면서도 기존 CNN 기반 모델과 동등한 속도를 달성합니다. YOLOv12-N은 T4 GPU에서 40.6% mAP를 달성하며, 최신 YOLOv10-N/YOLOv11-N보다 2.1%/1.2% mAP 높은 성능을 보였습니다.

전체 8개 섹션 분석

내가 읽고 있는 논문도 이렇게 정리해드릴게요

연구 배경 · 방법론 · 결과 · 한계점까지 8개 섹션 풀 분석. PDF 업로드 한 번이면 끝.

내 논문 분석하기

관련 전기·전자공학 논문

전기·전자공학 전체 보기