딥러닝 학습 optimizer 종류 정리

Untitled

<Gradient descent(GD)>

가장 기본이 되는 optimizer 알고리즘으로 경사를 따라 내려가면서 W를 update시킨다.

https://blog.kakaocdn.net/dn/mgYbs/btqAYGzF18b/sHaHpvNhi2zqNbOUjlUz2K/img.png

https://blog.kakaocdn.net/dn/brTsVJ/btqA0NSn3oB/neAr18Gs7jHWqbjnVKy1k0/img.png

Gradient descent notation

GD를 사용하는 이유

왜 이렇게 기울기를 사용하여 step별로 update를 시키는것일까?

애초에 cost(W)식을 미분하여 0인 점을 찾으면 되는게 아닌가??

1. 대부분의 non-linear regression문제는 closed form solution이 존재하지 않다.