RMSprop 에 대해 알아보겠습니다. 딥러닝 최적화 방법중의 하나입니다. RMSprop은 adagrad에서 좀 더 modified 된 버전입니다. adagrad 와 비슷하게 gradient 의 에너지를 학습에 반영합니다.
RMSprop 학습방법
우리가 최적화 하고자 하는 loss를 $J$라고 합시다. RMSprop 학습방법은 아래와 같습니다.
$$G_k(n) = \gamma G_k(n) +(1-\gamma) (\frac{\partial J}{\partial \theta_k}(\theta(n)))^2$$
$$\theta_k(n+1) = \theta_k(n) – \mu \frac{1}{\sqrt{G_k(n)+\epsilon}}\frac{\partial J}{\partial \theta_k}$$
Adagrad 와 다른점이라고 하면 $G_k$를 $G_k$와 편미분의 평균으로 취한다는 점입니다.