-
WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰Paper short review 2022. 2. 7. 15:05반응형
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용
- 정리: 음성 신호를 통해 얼굴 생성
1. Introduction
- 청각과 시각은 높은 상관관계를 가진다.
- EX) 목소리만으로 얼굴을, 얼굴만으로 목소리 상상 가능
- 음성 신호가 주어졌을 때, 얼굴 이미지 생성을 위한 연구 수행
- had crafted 작업, 사전 지식을 제거하여 음성신호만으로 얼굴 이미지를 생성하는 것을 목표로 한다.
- 이를 위해 정렬된 오디오 및 비디오 채널을 자체 감독 방식으로 훈련하는 조건부 생성적 적대 모델 제안
- 주요 기여점
- Wav2Pix (원시 음성 신호에서 직접 얼굴 이미지를 생성하는 조건부 GAN) 제안
- YouTube dataset 구축
- 제안된 방법론이 현실적이고 다양한 얼굴을 생성할 수 있다는 것을 보임
- 개발된 모델, 소프트웨어 및 dataset 공개 https://imatge-upc.github.io/wav2pix/
4. Method
- 목표: 원시 음성 파형에 따라 얼굴 생성 GAN을 학습시키는 것
- 음성 Encoder, Generator Net, Discriminator Net의 end-to-end 학습이 수행됨
- 음성 Encoder는 https://arxiv.org/abs/1703.09452의 discriminator에서 가져옴
- Generator와 Discriminator는 https://arxiv.org/abs/1605.05396에서 가져옴
- 학습은 Least Squares GAN을 따라 수행됨
- 아키텍처
Speech Encoder
- Generator G의 input으로 SEGAN discriminator Φ의 수정된 버전을 결합한다.
- e = Φ(s) ∈ R^128
Image Generator Network
- embedding e를 input (xˆ = G(e) = G(Φ(s)))
Image Discriminator Network
- Discriminator D
- 커널 크기=4, 스트라이드=2인 convolutional layers를 거친 후 spectral normalization과 leakyReLU 처리
- D의 차원이 4x4일 때, embedding e를 복제하여 depth concatenation 수행
- 마지막 convolution은 output으로 D score를 얻기 위해 stried 1로 수행
5. Experiments
Model training
Evaluation
- 아래 그림(왼)는 음성 청크에 따른 생성 이미지의 예시이다.
- 생성된 이미지는 흐리지만 개인의 특성을 보존하고 있음(=신분 파악 가능)
- 음성에 따라 다른 표정을 생성
- 6개의 다른 정체성의 다른 예는 그림(오)에 제시되어 있다.
- 음성 학습과 테스트 파티션에서 생성된 이미지의 신원을 예측하여 각각 76.81%와 50.08%의 식별 정확도를 얻음
- 얼굴 생성 평가
- 제안된 모델과 테스트 세트에 대해 생성된 모든 이미지의 경우, 검출 정확도는 90.25%로 대부분의 경우 생성된 이미지가 얼굴의 기본 시각적 특성을 유지한다는 것을 보여준다.
- 생성된 이미지지의 검출 정확도는 90.25%로 얼굴의 기본 시각적 특징을 유지한다는 것을 알 수 있음
- 아래 그림은 검출된 얼굴과 번호가 labeling된 얼굴 랜드마크의 예시이다
6. Conclusions
- 짧은 음성 신호에서 이미지를 생성하기 위한 cross-modal 접근법을 제안
- Youtuber dataset 구축
- 90.25% 정확도로 이미지 생성, 신원 보존 50%
- ablation 실험을 통해 train data의 품질에 대한 민감도를 확인
My Discussion
Why this paper?
음성 신호로만 image 생성???? (각 사람에 대해 따로 학습을 수행하는 것 같음)
speech encoder input은 한 순간이 아님 -> but 이미지 한장 생성????? 잘 이해가 안됨
얼굴을 생성했을 때, 90퍼정도만 실제 얼굴이라 인식됨(결과가 생각보다 좋진 않음)
--> 하나의 음성 신호로 여러 장의 이미를 연속적으로 생성하는 방법?
--> text에서 바로 얼굴 생성?
반응형'Paper short review' 카테고리의 다른 글