Inception | Notion

Inception motivation

딥 뉴럴 네트워크는 깊고 넓은 네트워크가 성능에 더 좋다 라는 관점이 있었으나 그것에 대한 단점들을 해결하는 과정에서 나온 아이디어들을 적용하였습니다.
단순히 깊고 넓은 네트워크는 학습시키는 데 오래 걸린다는 단점이 있었습니다. (연산량과 파라미터가 너무 많기 때문이지요)
먼저 파라미터의 수를 줄이는 방법은 1x1 convolution과 Tensor factorization을 이용하여 그 수를 줄일 수 있었습니다.⎡⎢⎣123⎤⎥⎦[456]=⎡⎢⎣45681012121518⎤⎥⎦
- 먼저 1x1 convolution을 이용하면 width, height의 크기는 유지하되 채널의 수만 줄일 수 있기 때문에 채널의 수를 줄였다가 다시 늘리는 방법으로 파라미터의 수를 줄일 수 있습니다.
- 다음으로 Tensor factorization은 행렬을 곱하기 전 상태의 파라미터를 저장함으로써 행렬의 곱 이후에 늘어나는 파라미터의 갯수에 대비하여 파라미터 수를 적게 저장하는 방법입니다. 비유를 하면 다음과 같습니다.
[123][456]=[45681012121518]
- 위 식을 보면 계산하기 전에는 파라미터가 6개였지만 계산 후에는 파라미터가 총 9개로 늘어났습니다. 이렇게 matrix 곱을 factorizaion 하였을 때 파라미터의 수가 줄어드는 경향이 있기 때문에 이 방식을(Tensor factorization) 이용하여 파라미터를 줄일 수 있었습니다.
- 자세한 내용은 이 글의 뒷부분에서 다루어 보겠습니다.
그 다음으로 연산을 효율적으로 하는 방법은 matrix 연산을 dense 하게 해야합니다.
- CNN 계열에서 가장 많은 연산이 필요한 것은 convolution filter(kernel)을 stride 만큼 옮겨가면서 feature와의 convolution 연산 (matrix의 dot product 연산)을 하는 것인데 이런 matrix 연산을 할 때, GPU의 성능을 최대화 하려면 matrix 자체가 dense 해야 한다는 것입니다. (즉, matrix에 0이 많지 않고 유효한 숫자가 많아야 한다는 뜻입니다.)
조금 전에 다루어 본 것은 파라미터의 수와 연산의 효율에 관련된 내용이었습니다.
이번에 다루어 볼 내용은 학습이 어려운 문제에 대하여 다루어 보려고 합니다.
학습이 어려운 이유는 크게 2가지 문제 입니다. 첫번째가 gradient vanishing 문제이고 두번째가 over fitting 문제이지요.
먼저 Inception에서 다룬 것은 깊은 layer까지 정보를 전달하기 위하여 auxiliary layer를 사용한 것입니다.
- 일반적인 네트워크에서는 마지막의 output에 해당하는 값과 label 값을 비교하여 오차를 구하고 그 오차를 통해 backpropagation 하는 방법을 이용하는데 inception에서는 layer가 깊어짐으로 인해 발생하는 gradient vanishing 문제를 해결하기 위해 중간 중간에도 오차를 계산하여 backpropagation을 전달하는 auxiliary layer를 추가적으로 두게 됩니다.
또한 overfitting이 덜 되는 general한 구조를 만들기 위해서는 sparse한 convolution을 도입하는 방법을 사용합니다.
- 마치 dropout을 적용하듯이 네트워크 자체를 sparse 하게 만드는 것이 개선점입니다.
- 앞에서 다룬 내용과 종합하면 matrix 자체는 dense하게 만들되 네트워크 자체는 sparse 하도록 만드는 것을 고민하였다고 할 수 있겠습니다.

Inception Module (v1)

앞에서 살펴본 motivation을 바탕으로 만들게 된 것이 Inception module 입니다.

목차

Inception motivation

Inception Module (v1)