WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰

Paper short review 2022. 2. 7. 15:05

@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용

1. Introduction

청각과 시각은 높은 상관관계를 가진다.
- EX) 목소리만으로 얼굴을, 얼굴만으로 목소리 상상 가능
음성 신호가 주어졌을 때, 얼굴 이미지 생성을 위한 연구 수행
- had crafted 작업, 사전 지식을 제거하여 음성신호만으로 얼굴 이미지를 생성하는 것을 목표로 한다.
이를 위해 정렬된 오디오 및 비디오 채널을 자체 감독 방식으로 훈련하는 조건부 생성적 적대 모델 제안
주요 기여점
1. Wav2Pix (원시 음성 신호에서 직접 얼굴 이미지를 생성하는 조건부 GAN) 제안
2. YouTube dataset 구축
3. 제안된 방법론이 현실적이고 다양한 얼굴을 생성할 수 있다는 것을 보임
4. 개발된 모델, 소프트웨어 및 dataset 공개 https://imatge-upc.github.io/wav2pix/

Speech Encoder

Image Generator Network

Image Discriminator Network

Discriminator D
- 커널 크기=4, 스트라이드=2인 convolutional layers를 거친 후 spectral normalization과 leakyReLU 처리
- D의 차원이 4x4일 때, embedding e를 복제하여 depth concatenation 수행
- 마지막 convolution은 output으로 D score를 얻기 위해 stried 1로 수행

Model training

Evaluation

아래 그림(왼)는 음성 청크에 따른 생성 이미지의 예시이다.
- 생성된 이미지는 흐리지만 개인의 특성을 보존하고 있음(=신분 파악 가능)
- 음성에 따라 다른 표정을 생성
- 6개의 다른 정체성의 다른 예는 그림(오)에 제시되어 있다.
음성 학습과 테스트 파티션에서 생성된 이미지의 신원을 예측하여 각각 76.81%와 50.08%의 식별 정확도를 얻음
얼굴 생성 평가
- 제안된 모델과 테스트 세트에 대해 생성된 모든 이미지의 경우, 검출 정확도는 90.25%로 대부분의 경우 생성된 이미지가 얼굴의 기본 시각적 특성을 유지한다는 것을 보여준다.
- 생성된 이미지지의 검출 정확도는 90.25%로 얼굴의 기본 시각적 특징을 유지한다는 것을 알 수 있음
- 아래 그림은 검출된 얼굴과 번호가 labeling된 얼굴 랜드마크의 예시이다

짧은 음성 신호에서 이미지를 생성하기 위한 cross-modal 접근법을 제안
- Youtuber dataset 구축
- 90.25% 정확도로 이미지 생성, 신원 보존 50%
- ablation 실험을 통해 train data의 품질에 대한 민감도를 확인

Why this paper?

음성 신호로만 image 생성???? (각 사람에 대해 따로 학습을 수행하는 것 같음)

speech encoder input은 한 순간이 아님 -> but 이미지 한장 생성????? 잘 이해가 안됨

얼굴을 생성했을 때, 90퍼정도만 실제 얼굴이라 인식됨(결과가 생각보다 좋진 않음)

--> 하나의 음성 신호로 여러 장의 이미를 연속적으로 생성하는 방법?

--> text에서 바로 얼굴 생성?

[Paper short review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation 번역 및 설명 (0)	2022.02.10
[Paper short review] Vision Transformer for Small-Size Datasets 논문 리뷰 (0)	2021.12.31
[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰 (0)	2021.12.22
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰 (0)	2021.12.14
[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰 (0)	2021.12.13