bag-of-freebies란?
inference 중에 추가 계산 비용을 발생시키지 않으면서, 모든 대중적인 object detection 네트워크의 성능을 향상시키기 위해 조합하여 사용할 수 있는 여러 가지 기법을 통칭한다.
YOLOv7은 5fps ~ 160fps 범위에서 지금까지 존재하는 모든 object detector의 성능을 능가합니다. GPU V100에서 30fps 이상으로 알려진 모든 object detector 중 가장 높은 정확도인 56.8% AP(average precision)를 가지고 있습니다. 또한, YOLOv7-E6 object detectors는 transformer 기반의 detector인 SWINL Cascade-Mask R-CNN보다 속도면에서 509%, 정확도면에서 2% 뛰어난 성능을 보이고, convolution 기반의 detector인 ConvNeXt-XL Cascade-Mask R-CNN보다 속도면에서 551%, 정확도면에서 0.7% 뛰어난 성능을 보입니다.
YOLOv7는 MS COCO dataset 만으로 학습된 모델입니다.
real-time object detection은 copmuter vision에서 중요한 요소로 자리잡고 있다. real-time object detection을 실행하는 컴퓨터 장치는 CPU, GPU, NPU가 있다.(jetson AI edge devices(Nvidia), the edge TPU(google) 등이 NPU이다.)
본 논문에서 제안된 개발 방향은, 현재 real-time object detection과는 다르다. object detection의 정확도를 향상시키기 위해 training cost를 강화할 수 있지만, inference cost를 증가시키지 않는 방향으로 최적화된 모듈과 최적화 방법에 초점을 맞출 것이다. 이를 bag-of-freebies라고 부른다.
최근 model re-parameterization과 dynamic label assignment 방법이 네트워크 학습 및 객체 탐지에서 중요한 주제가 되어 왔다. 본 논문에서는 model re-parameterization을 위해 서로 다른 네트워크 계층에 적용할 수 있는 model re-parameterization 전략을 분석하고, 모델을 제안한다. 또한, dynamic label assignment 기술을 사용하여 multiple output layers로 모델 학습을 할 경우, 문제가 발생한다. 이를 해결하기 위해, 새로운 label assignment 방법인, coarse-to-fine lead guided label assignment 방법을 제안한다.
본 논문의 contributions는 다음과 같다.
1) Real-time object detectors
현재 SOTA real-time object detector는 YOLO와 FCOS를 기반으로 한다. SOTA real-time object detector는 다음과 같은 특성을 따른다.