The Beautiful Future

Photorealistic Audio-driven Video Portraits 본문

논문

Photorealistic Audio-driven Video Portraits

Small Octopus 2022. 5. 24. 23:46

IEEE Transactions on Visualization and Computer Graphics2020

Monocular 3D Face Reconstruction
[4] A morphable model for the synthesis of 3D faces, SIGGRAPH 1999.
[17] 3D morphable face models-Past, present, and future. Graph 2020.
[19] Reconstruction of personalized 3D face rigs from monocular video, Graph 2016.
[42] Learning detailed face reconstruction from a single image. CVPR 2017.
[46] Synthesizing Obama: Learning lip sync from audio, Graph 2017.
[52] Face2Face: Real-time face capture and reenactment of RGB videos. 2018.

Video-driven Facial Reenactment
[1] Bringing portraits to life.
[22] Generative adversarial nets.
[29] Neural style-preserving visual dubbing.
[52] Face2Face: Real-time face capture and reenactment of RGB videos.
[60] DualGAN: Unsupervised dual learning for image-to-image translation.
[62] Few-shot adver-sarial learning of realistic neural talking head models.
[64] Unpaired image-to-image translation using cycle-consistent adversarial networks.

Audio-driven Facial Reenactment
[11] Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR 2019.
first transformed audio feature to facial landmark as an intermediate feature
generated speech frames conditioned on the landmarks with attention mechanism.
[12] You said that? BMVC 2017.
still image portrait following an audio speech. both image and audio jointly encoded into a laten space
decoder network synthesizes the talking head. unsupervised manner.
[63] Talking face generation by adversarially disentangled audio-visual representation. AAAI 2019.
learn a disentangled audio-visual representation in a novel adversarial training process.
this method can take either audio or video to drive the target actor.
[40] Towards automatic face-to-face translation. Multimedia 2019.
speech segment to any person, LipGAN architecture comprises a generator to synthesize portrait video frames
from source audio and target frames, and a discriminator to determine if the synthesized face iamge is synced
with the audio.
however, blur and jitter can be observed in their results, because temporal stability of the synthetic content is not guaranteed. [11, 12, 40, 63] can take arbitray audio as input to reenact arbitray actors using a single input image.
the results are not sufficiently photorealistic due to the low image quality.
[54] Realistic speech-driven facial animation with GANs. IJCV 2020.
end-to-end method to generate talking head videos using a still image and speech audio.
A Temporal GAN with three discriminators is employed to achive sharp frames, audio-visual synchronization
and realistic expressions.
[15] VOCA, Capture, learning, and synthesis of 3D speaking styles. CVPR, 2019.
realistic 3D facial animation from arbitrary audio, based on a new 4D face dataset of 12 speakers.
[46] Synthesizing Obama: Learning lip sync from audio. Graph 2017.
RNN is trained on 14 hours speech video of a specific target identity to train the network.
trained on mel-frequency cepstral coefficients(MFCC) audio feature. 
A photorealistic mouth region is synthesized within a manually drawn mask using the median texture of 
retrived candidate frames. composited on the time-warped target video background.
[61] Multimodal inputs driven talking face generation with spatial-temporal dependency. CSVT 2020.
generating talking-head video from text and/or audio input. optical flow and self-attention are introduced to model
temporal and spatial dependencies.
US presidents Donald Trump and Barack Obama, and does not generalize beyond them.
[50] Neural voice puppetry: Audio-driven facial reenactment.
audio-to-expression network that is trained on a large corpus of TV broadcasts.
The lower face is rerendered using the predicted expression from audio with deferred neural rending [Deferred neural rendering: Imagesynthesis using neural textures Graph 2019]. 
To fill the gap between jaw and neck, an additional standalone inpainting network is employed.
In contrast, we address this issue using a simple mask expansion process that is controlled by a facial expression parameter.
[45] Everybody’s talkin’: Let me talk as you want.
ID-removing network to predict expression parameters.
universal translation network that transforms landmark heatmaps to photorealistic video for arbitrary targets.
landmark heatmap as input to the neural face renderer can introduce jitter. it is challenging to maintain the temporal coherency of landmarks.
[59] Audio-driven talking face video generation with learning-based personalized head pose. 2020.
personalized learining-based head pose generation method to enhance the fidelity of talin-head videos.
less data about 10 seconds is required to train an image translation network through a memory-augmented GAN.
however due to errors in their face reconstruction, the reconstructed face sequence is unstable.

Deep Generative Models and Neural Rendering
[35] Conditional generative adversarial nets. 2014.
bridge the gap between two different but relevant domains.
[27] Image-to-image translation with conditional adversarial networks. CVPR 2017.
one benchmark method of conditional GAN-based image synthesis.
[57] Video-to-video synthesis. In NeurIPS, 2018.
generate high-resolution and temporally smooth video in a course-to-fine manner with recurrent network.
[2] Unsupervised video retargeting. ECCV 2018. Recycle-GAN.
unpaired learning of a coherent video-to-video translation.
[56] Few-shot video-to-video synthesis. In NeurIPS, 2019.
learns to synthesize videos of unseen subjects via a novel network weight generation module.
[18] Text-based editing of talking-head video. Graph 2019.
[29] Neural style-preserving visual dubbing.  Graph 2019.
[30] Deep video portraits. Graph 2018.
face reenactment, visual dubbing.
[10] Everybody dance now. ICCV 2019.
[33] Neural animation and reenactment of human actor videos. Graph 2019.
full-body reenactment.
[48] State of the art on neural rendering. Graph 2022.
[51] Deferred neural rendering: Image synthesis using neural textures. Graph 2019.
novel view synthesis, scene editing and animation synthesis.
[34] Neural rerendering in the wild. CVPR, 2019.
takes a deep framebuffer consisting of depth, color and semantic labeling as input and outputs realistic renderings 
of the scene under multiple appearances.
[53] Image-guided neural object rendering. ICLR, 2020.
combines image-based rendering and GAN-based image synthesis

전반적인 흐름
3D face 모델을 입력 오디오와 출력 이미지를 연결하기 위해서 사용하였다.
이런 intermediate model 은 오디오와 이미지 사이 오버피팅을 방지한다.
제안하는 방법은 3가지 스텝으로 이루어진다.
1. monocular 3D face reconstruction
2. audio-to-facial-expression
3. neural face rendering
타겟 비디오가 주어졌을때 오디오 특징에서 표정 파라미터로 맵핑하는 모델을 학습한다.
이 맵핑은 심지어 다른사람의 스피치 오디오여도 표정 파라미터로 맵핑이 가능하다.
타겟 비디오에 핏팅된 3D face 모델에 표정 파라미터를 블렌딩하여 다시 렌더링한다.
렌더링된 이미지가 실제 이미지의 아래 얼굴부위가 같아지게 neural face renderer를 학습했다

Monocular 3D Face Reconstruction
타겟 비디오의 얼굴에 3D face model을 피팅했다.
[16] Accurate 3D face reconstruction with weakly-supervised learning: From single image to image set. CVPRW 2019.
을 사용했고 비디오 기반 3D face 재구성에 응용했다.
얼굴 모델 피팅에 사용된 에너지 텀에 대해서도 설명할 것이다.

Parametric Face Model
파라메트릭 3D face 모델은 구조(geometry), 표정(expression), 반사도(reflecance) 로 모델링 된다.
표정 파라미터는 
[23] CNN-based real-time dense face reconstruction with inverse-rendered photo-realistic face images. PAMI 2019.
메쏘드와 FaceWarehoue 데이터셋으로 부터 증강되었다.

Image Formation Process
3D face를 이미지로 렌더링하기위해 조명과 카메라가 필요했다. 
스페리컬 하모닉을 이용한 환경 조명을 근사화하기위해 람버시안 서페이스와 디스턴스 씬 일루미네이션을 가정했다. 
스페리컬 하모닉(SH)모델은 몇개의 밴드, RGB SH 계수, 베이시스 함수, 반사계수, 유닛 노멀 벡터의 계산으로 이루어진다.
3개의 밴드와 9개의 계수를 사용하였다. 총 27개이다. 그리고 얼굴 모델의 계수는 총 257개이다.
핀홀 카메라와 퍼스펙티브 사영을 사용했다. 
미분가능한 레스터라이져를 통해 이미지로 변환된다.

Face Model Fitting
VGGFace2에 학습된 ResNet-50을 face 모델 파라미터를 예측하기위해 사용했다. 
사전학습된 모델을 쓰는게 더 시간적으로 일관된 결과를 보였다.
특히 마지가 풀리 커넥티드 레이어를 97차원으로 바꿨다.
그리고 입력 이미지와 렌더링된 이미지 사이의 불일치를 합성을 통한 분석을 통해 줄였다.
로스 텀은 photometric discrepancy, landmark alignment constrain, 3DMM coefficient regularization.
이렇게 총 3개을 사용하였다.
[5] How far are we from solving the 2D & 3D face alignment problem?
face alignment
[20] Unsupervised training for 3D morphable model regression. CVPR 2018.
를 참고하여 구체적인 유도를 했다.
전체 타겟 비디오에 핏팅하기 전에 액터마다 랜덤하게 8 프레임을 뽑아서 구조와 반사도를 계산했고 
이 값을 고정했다. 그 다음 우리의 얼굴 재구성 넷웍을 20 에폭 학습했다. 배치 사이즈 5, lr 2x10^-5.

Audio to Facial Expression Mapping
AT-net
[11] Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR 2019.
을 이용해서 하이 레벨 특징을 오디오에서 추출하였다.
AT-net은 오디오에서 랜드마크 애니메이션을 생성하게 학습되어있다. LRW dataset(BBC 방송)에 학습되어있다.
25FPS 단위인 40 ms 세그먼트 단위로 오디로를 나누고 입력으로 사용했다. AT-net의 256 특징을 받아서 표정 파라미터를 
출력하는 네트웍을 학습했다. 
시간 연속성을 고려하여 오디오 특징을 이전 3개와 미래 3개을 스택하여 7개로 만들어 입력으로학습했다.
3개의 1D convolution layer를 시공간 정보를 통합하기 위해 사용하였다. 64 node FC 레이어를 쌓고 표정 파라미터를 예측하게 했다. audio feature (7x256) -> (5x254) -> (3x252) -> (1x250) -> 60 -> expression parameters.
MSE loss를 사용하였고 타겟 비디오에서 계산된 표정 파라미터를 예측하게 했다. 아담 옵티마이저, 10 에폭, 베치싸이즈 5.

Neural Face Renderer
y축에서 0보다 작은 모든 버텍스를 마크한다. 그 다음 레스터라이즈해서 하관 마스크를 얻는다. 그러나 이렇게 얻어진 마스크를 그대로 사용하면 턱이 두개가 된다. 표정 파라미터의 첫째 변수를 감소하여 fully open mouth를 한 마스크를 얻는다. 
neural face render 를 학습하기 위해 사용된 데이터는 타겟 비디오의 이미지와 이 이미지에 피팅된 합성 얼굴에 각각 마스킹을 한 쌍이다. 
[30] Deep video portraits. Graph 2018. 를 따라서 학습했고 U-Net기반에 제너레이터와 디스크리미네이터를 사용하여 두 네트워크를 번갈아가며 어드버서리얼 방법으로 학습했다. 제너레이터는 인코더와 디코더로 나눠지며 인코더에서는 리키렐루를 사용했다.
디코더에서는 트랜스포즈 컨볼루션과 배치놈 드랍아웃 렐루를 사용했다. 디스크리미네이터는 [27] Image-to-image translation
with conditional adversarial networks. CVPR 2017. patch GAN 을 사용했다. 시간 일관성을 위해 Audio to facial expression 에 사용한 입력 방법을 그대로 사용했다. 이미지 7장을 쌓아서 입력했다. 로스는 포토메트릭 리컨스트럭션 로스와 어드버서리얼 로스를 사용했다. 아담 옵티마져 디폴트 설정을 사용했고 웨이트 초기값으로 0.02^2를 사용했다. 총 에폭은 250이고 배치크기는 16 그리고 학습율은 0.0002를 사용했다. 타겟 이미지와 합성할때 가우시안 스무딩된 마스크를 사용했다.

DB
[29] Neural style-preserving visual dubbing.  Graph 2019. 11 개의 유투브 비디오를 사용했다. 영어 8개 독일어 3개. 87초 에서 240초 비디오. 오바마 3개 트럼프 다른 사람들.

Quantitative Evaluation
[58] Image quality assessment: from error visibility to structural similarity. IP2003. SSIM.
A~K까지 디비중에서 A, B, I 를 가지고 평가했다.
그리고 유저 테스트(유저 스터디)도 진행을 해서 스코어링을 했다.

Comments