YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

bag-of-freebies란?

inference 중에 추가 계산 비용을 발생시키지 않으면서, 모든 대중적인 object detection 네트워크의 성능을 향상시키기 위해 조합하여 사용할 수 있는 여러 가지 기법을 통칭한다.

Abstract

YOLOv7은 5fps ~ 160fps 범위에서 지금까지 존재하는 모든 object detector의 성능을 능가합니다. GPU V100에서 30fps 이상으로 알려진 모든 object detector 중 가장 높은 정확도인 56.8% AP(average precision)를 가지고 있습니다. 또한, YOLOv7-E6 object detectors는 transformer 기반의 detector인 SWINL Cascade-Mask R-CNN보다 속도면에서 509%, 정확도면에서 2% 뛰어난 성능을 보이고, convolution 기반의 detector인 ConvNeXt-XL Cascade-Mask R-CNN보다 속도면에서 551%, 정확도면에서 0.7% 뛰어난 성능을 보입니다.

YOLOv7는 MS COCO dataset 만으로 학습된 모델입니다.

Introduction

real-time object detection은 copmuter vision에서 중요한 요소로 자리잡고 있다. real-time object detection을 실행하는 컴퓨터 장치는 CPU, GPU, NPU가 있다.(jetson AI edge devices(Nvidia), the edge TPU(google) 등이 NPU이다.)

본 논문에서 제안된 개발 방향은, 현재 real-time object detection과는 다르다. object detection의 정확도를 향상시키기 위해 training cost를 강화할 수 있지만, inference cost를 증가시키지 않는 방향으로 최적화된 모듈과 최적화 방법에 초점을 맞출 것이다. 이를 bag-of-freebies라고 부른다.

최근 model re-parameterization과 dynamic label assignment 방법이 네트워크 학습 및 객체 탐지에서 중요한 주제가 되어 왔다. 본 논문에서는 model re-parameterization을 위해 서로 다른 네트워크 계층에 적용할 수 있는 model re-parameterization 전략을 분석하고, 모델을 제안한다. 또한, dynamic label assignment 기술을 사용하여 multiple output layers로 모델 학습을 할 경우, 문제가 발생한다. 이를 해결하기 위해, 새로운 label assignment 방법인, coarse-to-fine lead guided label assignment 방법을 제안한다.

본 논문의 contributions는 다음과 같다.

real-time object detection이 inference cost를 증가시키지 않고도 detection 정확도를 크게 향상시킬 수 있도록 trainable bag-of-freebies 방법을 제안한다.
object detection 방법의 발전을 위해, re-parameterized module이 original module을 대체하는 방법과 dynamic label assignment strategy가 다른 output layers assignment하는 방법에서 발생하는 문제를 해결할 수 있는 방법을 제안한다.
parameters와 computation을 효과적으로 활용할 수 있는 real-time object detector를 위한 'extend' 및 'compound scaling' 방법을 제안한다.
본 논문에서 제안한 방법들은 SOTA real-time object detector의 약 40%의 파라미터와 50%의 계산을 줄일 수 있으며, inference speed가 더욱 빠르고 detecton 정확도가 더욱 높다.

Related word

1) Real-time object detectors

현재 SOTA real-time object detector는 YOLO와 FCOS를 기반으로 한다. SOTA real-time object detector는 다음과 같은 특성을 따른다.

보다 빠르고, 강력한 네트워크 아키텍처