Paper short review

WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰

요 블로그 주인장 2022. 2. 7. 15:05
반응형

@ 굵은 글씨 중요한 내용, 빨간 글씨는 내가 추가한 내용

 

https://openaccess.thecvf.com/content_CVPRW_2019/papers/Sight%20and%20Sound/Amanda_Cardoso_Duarte_WAV2PIX_Speech-conditioned_Face_Generation_using_Generative_Adversarial_Networks_CVPRW_2019_paper.pdf

 

  • 정리: 음성 신호를 통해 얼굴 생성

 

1. Introduction

  • 청각과 시각은 높은 상관관계를 가진다.
    • EX) 목소리만으로 얼굴을, 얼굴만으로 목소리 상상 가능
  • 음성 신호가 주어졌을 때, 얼굴 이미지 생성을 위한 연구 수행
    • had crafted 작업, 사전 지식을 제거하여 음성신호만으로 얼굴 이미지를 생성하는 것을 목표로 한다.
  • 이를 위해 정렬된 오디오 및 비디오 채널을 자체 감독 방식으로 훈련하는 조건부 생성적 적대 모델 제안
  • 주요 기여점
    1. Wav2Pix (원시 음성 신호에서 직접 얼굴 이미지를 생성하는 조건부 GAN) 제안
    2. YouTube dataset 구축
    3. 제안된 방법론이 현실적이고 다양한 얼굴을 생성할 수 있다는 것을 보임
    4. 개발된 모델, 소프트웨어 및 dataset 공개 https://imatge-upc.github.io/wav2pix/

 

4. Method

  • 목표: 원시 음성 파형에 따라 얼굴 생성 GAN을 학습시키는 것

Speech Encoder

  • Generator G의 input으로 SEGAN discriminator Φ의 수정된 버전을 결합한다.
  • e = Φ(s) ∈ R^128

 

Image Generator Network

  • embedding e를 input (xˆ = G(e) = G(Φ(s)))

 

Image Discriminator Network

  • Discriminator D
    • 커널 크기=4, 스트라이드=2인 convolutional layers를 거친 후 spectral normalization과 leakyReLU 처리
    • D의 차원이 4x4일 때, embedding e를 복제하여 depth concatenation 수행
    • 마지막 convolution은 output으로 D score를 얻기 위해 stried 1로 수행

 

5. Experiments

Model training

Evaluation

  • 아래 그림(왼)는 음성 청크에 따른 생성 이미지의 예시이다.
    • 생성된 이미지는 흐리지만 개인의 특성을 보존하고 있음(=신분 파악 가능)
    • 음성에 따라 다른 표정을 생성
    • 6개의 다른 정체성의 다른 예는 그림(오)에 제시되어 있다. 
  •  
  • 음성 학습과 테스트 파티션에서 생성된 이미지의 신원을 예측하여 각각 76.81%와 50.08%의 식별 정확도를 얻음
  • 얼굴 생성 평가
    • 제안된 모델과 테스트 세트에 대해 생성된 모든 이미지의 경우, 검출 정확도는 90.25%로 대부분의 경우 생성된 이미지가 얼굴의 기본 시각적 특성을 유지한다는 것을 보여준다.
    • 생성된 이미지지의 검출 정확도는 90.25%로 얼굴의 기본 시각적 특징을 유지한다는 것을 알 수 있음
    • 아래 그림은 검출된 얼굴과 번호가 labeling된 얼굴 랜드마크의 예시이다

 

6. Conclusions

  • 짧은 음성 신호에서 이미지를 생성하기 위한 cross-modal 접근법을 제안
    • Youtuber dataset 구축
    • 90.25% 정확도로 이미지 생성, 신원 보존 50%
    • ablation 실험을 통해 train data의 품질에 대한 민감도를 확인

 

My Discussion

Why this paper?

음성 신호로만 image 생성???? (각 사람에 대해 따로 학습을 수행하는 것 같음)

speech encoder input은 한 순간이 아님 -> but 이미지 한장 생성????? 잘 이해가 안됨

얼굴을 생성했을 때, 90퍼정도만 실제 얼굴이라 인식됨(결과가 생각보다 좋진 않음)

 

--> 하나의 음성 신호로 여러 장의 이미를 연속적으로 생성하는 방법?

--> text에서 바로 얼굴 생성?

 

반응형