The Beautiful Future
Linear Classification1 본문
이미지를 벡터로 생각하고 출력을 클래스 레이블 벡터로 생각해라.
bias를 W의 마지막 열에 추가하면 아래와 같이 된다.
W의 각 행은 xi와 내적되어 class score를 계산하며 유사도로 생각 할 수 있다.
W을 학습하기 위해 Loss function 다른 말로는 cost function, objective function을 정의하고 최소화하는 W을 학습해야한다. Losss는 학습 모델과 label의 함수이다.
아래와 같이 j번째 클래스의 점수가 조금이라도 높다면 분류를 잘 못하게 된다.
즉 아래와 같이 0 보다 작은 경우 제대로 분류하게 된다.
즉 0보다 작다면 Loss가 없다고 볼 수 있으며 0보다 큰 경우는 줄여야 할 Loss이다.
Hinge Loss
솔직히 말해서 0보다 더 작은 수보다 작으면 비슷한게 들어 왔을때 0에서 왔다리 갔다리 안하고 더 좋을 것 같다.
Hinge Loss with margin
Multiclass SVM Loss
REGULARIZATION
w가 유니크하지 않다. 상수배해도 같은 Loss를 갖는다.
그래서 마진 의 값은 무시되며
을 조절해서 loss를 줄일 수 있다.
그래서 w에 규칙(Regularization) 을 가해야한다.
어떤 입력 x에 대한 출력이 같더라도 w의 norm이 작아지면서 w내부의 값들은 작아지고 골구로 퍼지게 된다. 골구로 퍼지는 것은 입력의 모든 차원을 고려하는 것이며 overfitting도 방지해준다.
하이퍼 파라미터,
모든 경우에 마진는 1로 두고 loss를 줄일 수 있다.
는 크로스벨리데이션 튜닝을 통해 찾아야한다.
,
두 하이퍼 팔라미터가 관련이 없어 보여도 같은 tradeoff를 조절한다.
data loss와 regularization loss에대한 tradeoff를 조절한다.
'알고리즘' 카테고리의 다른 글
Bicubic Spline interpolation (0) | 2016.07.18 |
---|---|
Linear Classification2 (0) | 2016.05.02 |
Adaboost (0) | 2016.04.26 |
Levenberg-Marquardt algorithm (0) | 2016.04.18 |
Expectation Maximization Algorithm (0) | 2015.07.16 |