논문
Residual Net
Small Octopus
2016. 12. 12. 15:46
4.Experiment
4.1 ImageNet Classification
1000클래스를 포함하고 있는 ImageNet 2012 데이터셋에 실험하였다.
128만장을 학습에 하용하였고 5만장을 validation으로 사용했다. 그리고 test로 10만장을 사용했다.
top-1 과 top-5 에러을 측정했다.
- Plain Networks
18layer에서 34layer로 깊게했을때 에러가 늘얼났다. 반면 ResNet은 에러가 줄어들었다.
Plain Networks 34layer의 train error가 모든 학습기간동안 18layer보다 높았다.
이 문제가 vanishing gradients의 문제는 아닌것 같다.
BatchNoralization은 분산이 0이 안되게하면서 forward propagete하기 때문이다.
backward propageted gradients 또한 건강한 크기를 가지게 되는 것을 검증하였다.
Plain Networks 34layer을 더 연장하여 학습하면 성능이 더 올라 갈 수도 있을 것이다.
우리는 추측한다. 네트웍이 깊어질 수 록 exponentially low convergence rates을 가진다.
실제로 좀 더 돌려 본 결과 해결되지 않았다. 이 문제는 미래에 연구 될 것이다.
- ResNet
모든 short cut에 Identity mapping을 초기값으로 줬고 zero-padding을 이용해 dimension을 유지했다.