The Beautiful Future

OpenPose: Real-time Multi-Person 2D Pose Estimation using Part Affinity Fields 본문

논문

OpenPose: Real-time Multi-Person 2D Pose Estimation using Part Affinity Fields

Small Octopus 2020. 6. 7. 17:27

terms

anatomical keypoints, parts

contact, occlusion, or limb articulations

early commitment

 

Introduction

문제가 어려운 이유:

불특정 다수를 찾아야한다. 여러명이 붙어있다. 스스로 또는 물체에 가려져있다. 마디 관절 움직임.

탑다운의 단점

검출 실패 시 복귀할 방법이 없다. 사람이 늘어날 수록 처리시간 증가한다.

탑다운의 장점

다른 사람과 분리되고 한사람을 직접적으로 전체적인 것을 보고 파트를 유추한다.

바텀업 단점

다른 사람과 분리되지 않고 한사람에 대해 직접적으로 전체적인 것을 보고 파트를 유추하지 않는다.

바텀업 장점

사람의 일부만있어도 찾을 수 있다. 사람 수에 덜 민감한 실행시간을 갖는다.

공헌점

PAFs, Greedy parse alg, High quality, computational cost.

Part 예측 보다 PAFs 예측이 더 중요하다. (속도 2배, 성능 7% 증가)

만오천명의 annotated foot dataset 제공, 자동차 뼈대 추출에도 사용.

오픈 포즈 공개.

 

Dataset and Evaluations

MPII: 3844 training and 1758 testing.

COCO: 17 keypoints(arm(l3, r3) leg(l3, r3) + facial(5))

foot datast: 15K out of COCO, (Clickworker platform)

 

Results on the MPII Multi-Person Dataset

Deepcut: Joint subset partition and labeling for multi person pose estimation 에서 제공해주는 툴킷을 사용

mean Average Precision(mAP)를 측정함.

2D human pose estimation: new benchmark and state of the art analysis 에서 사용된 PCKh를 사용함.

딥퍼컷보다 8.5% mAP 앞선다.

스케일 서치 없이 13% 이전 소타를 앞섯다,  0.7 1.0 1.3 스케일 서치를 사용하여 75.6% mAP를 달성하였다.

테이블 2

풀그래프로 학습 후 MPII에서 343장을 뽑아서 성능 평가했다.

풀그래프: 인트저 리니어 프로그래밍

미니멀 트리: 인트저 리니어 프로그래밍

바이 파트 셋: 그리디 

풀그래프로 학습하지 않고 바이파트로 학습한 후 조립 알고리즘 성능 측정시 제일 좋았다.

피겨11

원 미드 포인트와 투 미드 포인트와 비교

언레이블드 사람 학습에 포함 미포함 비교

지티 키포인트 좌표 + FAFs 를 사용한 결과

검출된 키포인트 + 지티 연결를 사용한 결과 -> (79.4 -> 81.6) 

 

코코

10만명 이상, 100만개 이상 키포인트,

테스트셋은 테스트 첼린지와 테스트 디이브이로 구성됨.

테스트셋은 2만장정도됨, 

코코 평가에서는 오브젝트 키 시밀레러티 OKS를 정의하고 mAP를 사용한다.

10개 이상의 OKS 임계치가 중요 경쟁 측정방법이다.

OKS는 검출에서 IOU와 비슷한 역할을 한다. 

사람의 크기와 지티와 예측사이 거리로 부터 계산된다.

 

PAFs 스테이지를 CM보다 많이 넣었을때 좋다. 

1. 리파이먼트 스테이지에 더 많이 필요하고 수렴성에 유익하다.

2. PAFs 채널수가 늘어나면 위치가 정확하진 않더라도 TP가 증가한다, 

3. 반면 CM의 채널을 늘려주면 위치정확도가 올라간다. 

PAFs 가 CM보다 앞에 나왔을때 성능향상이 더 있다.

 

발 학습

컴바인트 트레이닝 스킴

큰 몸 디비, 작은 몸 발 디비, 같은 배치 싸이즈

몸만 있는 디비로 학습시 발 로스는 제거

발만 있느 디비로 학습시 몸 로스를 제거.

발 데이터가 적어서 지터와 실패 경우를 꽤 봤다.

두디비를 비율확률로 샘플링해서 같은 배치로 학습때 성능이 약간 떨어짐

언벨런스하게 데이터셋을 섞으면 발의 양은 적어지고 수렴이 느려진다.

 

OKS ??

mAP ??

 

 

'논문' 카테고리의 다른 글

Simple and Lightweight Human Pose Estimation  (0) 2020.07.05
Robust 3D Human Pose Estimation from SingleImages or Video Sequences  (0) 2020.07.05
ICCV 2019  (0) 2019.11.14
SSD  (0) 2017.12.14
PRUNING FILTERS FOR EFFICIENT CONVNETS, ICLR2017  (0) 2017.06.09
Comments