The Beautiful Future

Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression 본문

논문

Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression

Small Octopus 2021. 2. 20. 00:14

ICCV2019

Adaptive Wing Loss 설계

로스 가중치 적용

HG에 boundary prediction을 추가

HG에 Coordinate encoding(CoordConv)을 매 스택 시작전에 추가

 

인플루언스와 그래디언트는 비례 , 네트웍에 영향력을 행사하기때문에 그냥 그래디언트라고 부르기 보다는 

인플루언스라고 부름, 네트워 학습에 영향을 미치는 그래디언트 == 인플루언스

 

로스와 그래디언트, L1, wing로는 0에서 큰 그래디어트를 가짐 그래서 수렴이 안된다. 이런 경우 L1보다 wing이 더 크기때문에 더 않좋음. 오실레이션 일어남.

L2로스

L2로스의 그래디언트는 선형이기때문에 작은 에러에서 작은 그래디언트(영향력)를 가진다.

수렴되면서도 작은 에러를 그대로 가지게 된다. 결과 블러된 다일레이트된 히트맵이 생성된다. 

심지어 더 나쁜경우는 어려운 랜드마크나 가려진 랜드마크에서 일반적이지 않은 랜드마크에서 작은 밝기를 가진다.

L1 로스

상수 그래디언트를 가진다. 그래서 에러가 큰것과 작은 에러에서 같은 영향력을 가진다.

0에서 미분 불가능하다. 수렴하려면 양 에러와 음 에러가 같아야한다. 이 조합은 가지기 어렵기때문에

학습과정에서 불안정한 오실레이션이 발생한다.

WING 로스

Wing loss for robust facial landmark localisation with convolutional neural networks CVPR2018

에러가 클때는 상수 그래디언트를 주고 에러가 작을 때는 큰 그래디언트를 준다.

로스가 0일때 불연속이기때문에 L1보다 더 수렴에 어려운 단점이있다.

작은 그래디언트나 0이 되면 학습하기 어렵워서 절대 수렴되지 않는다.

큰 에러에서 상수 그래디언트를 가져서, 부정확한 어노테이션과 가려짐(배경판단)에 강하다.

AWing로스

전경 픽셀 시나리오 1: 충분히 잘 예측된 픽셀에 더 이상 집중하지 않는다. 잘 예측된 것의 영향력을 줄이는 것은 전체 네트웍이 잘 수렴하는데 도움이 된다.

배경 픽셀 시나리오 2:  MSE 로스를 사용, 영향력은 그래디언트와 비례하게한다. 배경에 너무 집중하는 것을 줄여준다.

고정된 로스는 시나리오 1,2를 만족하지 못한다. gt의 값(pixel intensity)에 따라 변화하는 로스를 설계하겠다.

gt의 값이 1에 가까울 수록 작은 에러의 영향력을 키우겠다.

gt의 값이 0에 가까울 수록 MSE로스와 유사하게 동작하게 하겠다.

위와 같은 직관으로 Adaptive Wing Loss가 탄생하였다.

a-y 지수 텀을 줘서 y-y^에서 미분 가능, a의 값은 2보다 조금 더 큰값을 주어서 a-y는 1.x ~ 2.x의 값을 가짐.

2.x에 가까워 질수록(y~0) MSE 처럼 동작하고 1.x에 가까워 질수록(y~1) 윙로스처럼 작은 에러에 큰 영향력을 행사한다.

비선형 파트에서 ( 오차가 세타 보다 작을때)

y가 1 에서 0으로 갈수록 V에서 U형태로 바뀌고 그래디언트는 거의 스텝에서 활선으로 바뀐다.

전경 일때 작은 에러에서 큰 그래디언트(영향력)으주고 배경일때 작은 에러에서 작은 그래디언트를 준다.

실제 실험에서 에러가 클때는 비선형로스를 주는 것 보다 선형로스를 주는것이 더 좋았다.

실험적으로 a=2.1, w=14, E-1, 세타=0.5를 주는 것이 효과적이었다.

 

Weighted loss map

64x64 히트맵과 7x7 가우시안을 사용할때 1.2%만이 전경이된다.

가우시안의 모드와 어려운 배경(모드 근처의 배경)에 더 큰 가중치를 준다.

W는 10을 사용했다.

 

Boundary Information

A boundary-aware face alignment algorithm CVPR 2018 과 같이 외곽을 예측하는 것을 

서브 테스크로 학습함. 모든 랜드마크를 하나의 채널로 합쳐서 학습한게 다름.

 

Coordinate aggregation

An intriguing failing of convolutional neural networks and the coordconv solution.

좌표정보를 제공하기위해서 사용함. x,y 좌표와 반지름을 포함해서 사용함. 

이전 단계에서 나온 HG의 바운더리 출력에서 0.05보다 큰값만 좌표값을 줘서했다.

실험

 

 

 

 

Comments