[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰

Paper short review 2021. 12. 13. 12:28

@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용

https://arxiv.org/pdf/2112.02448v1.pdf

0. Abstract

본 연구는 러시아어로 된 caption을 조건으로 하여 이모티콘을 생성하는 text-to-image 신경망 "Emojich"를 제안한다. 사전 학습된 ruDALL-E Malevich (XL) 모델을 통해 생성된 이미지에 특별한 스타일을 제공하는 것을 목표로 한다. 본 논문에서는 몇 가지 엔지니어링 방법, 코드 구현, hyper parameter 및 자신만의 맞춤형 스티커 세트를 만들 수 있는 Telegram 봇에 대한 연구가 나와있다. 또한 "Emojich" 모델에 의해 새롭게 생성된 이모티콘도 시연한다.

1. INTRODUCTION

일반적으로 많은 양의 데이터에 대해 사전 학습되는 transformer 모델은 다양한 downstream task에 성공적으로 대처하거나 특정 도메인과 관련된 새로운 데이터에 적응할 수 있는 능력을 입증했으며, 이는 fine-tuning을 통해 달성된다. 이러한 접근법의 예는 nlp, cv 분야에 풍부하다. 그러나 다중 모드 모델 (text2image,image2text 등등)은 현재 ML 연구의 최첨단에 있다.

시간이 많이 걸리고 까다로운 절차- 표현력, 보편성 및 사용 편의성을 갖춘 이모티콘이 일상 디지털 커뮤니케이션에 침투했다. 특히 텔레그램과 같은 일부 메신저는 사용자가 자신만의 아이콘 세트를 만들 수 있도록 허용하기 때문에, 그것은 독특하고 즉각적인 이모티콘을 생성할 수 있는 좋은 옵션이 될 것이다. 이러한 점에서, text와 image에 대한 joint distribution을 계산하고 전자에 의해 후자를 생성하는 최근에 도입된 text-image 모델은 매우 매력적으로 보인다. 그러나 기존 접근방식은 DC-GAN과 word2vec 임베딩을 기반으로 하는 반면, 최근 모델의 transformer 아키텍처는 문맥에 의존하며 의미를 훨씬 잘 포착하는 고품질 표현을 제공한다. 기존 모델 학습에 사용되는 데이터는 다소 빈약하고 82개의 감정적인 얼굴로 제한되고, 결과 모델은 새로운 이모티콘을 합성할 수 없다 (이는 기존 이모티콘의 조합 아이콘을 생성하는 것이라고 생각).

위의 관점에서, 우리는 ruDALL-E 모델을 fine-tuning하여 text를 기반으로 이모티콘을 생성하는 기능을 테스트하고자 한다.

4. EVALUATION

이미지 생성의 경우, 가장 인기 있는 지표는 Generative Adversarial Networks(GAN) 성능의 품질을 평가하는 데 사용되는 FID이다.

또 다른 측정 기준인 Caption Loss(Caption Loss)이 있다. 그것은 역작업(이미지 캡션)에 대한 모델 미세 조정과 텍스트 토큰에 대한 교차 엔트로피 값을 사용하여 추가 자체 순위를 조정하는 것을 포함한다. 이 메트릭은 고려할 가치가 있으며 향후 실험에서 사용될 것이다.

현재 실험에서는 human evaluatio이 사용된다. 아래 그림은 매 2thous 이후 모델에 의해 얻어진 영상 샘플을 보여준다. 처음에는 이미지가 이모티콘 스타일에 부합하지 않는 사실적인 사진이라는 것을 관찰할 수 있다. 나중에는 약 12 thous 이후에는 사진이 수정되어 그림들과 비슷해진다. 이미지는 아인슈타인의 알아볼 수 있는 특성을 유지하면서 점점 더 이모티콘처럼 보이기 시작한다. 그러나 이 모델은 계속해서 일반화 됨에 따라, 이미지들은 균일해지고 비인격적이 되어가고 있다. 아인슈타인은 콧수염을 기른 미지의 남자로 변신하고 있으며, 표준 이모티콘이 세대 결과에서 우세하기 시작했다.

5. EMOJI GENERATION

이모지 생성은 원하는 이모지 내용을 설명하는 text로 시작한다. token화된 text가 Emojich에 input되면 모델은 자동으로 나머지 codebook vectors를 생성합니다. 모든 codebook vectors는 decoding 전략으로 temperature를 갖는 nucleus top-p와 top-k sampling을 사용하여 이미지 latents 에 대한 예측된 multinomial probability distribution에서 항목별로 선택된다.

6. RESULTS

추가로, 생성된 이모티콘 이미지의 배경을 자르기 위해 UNet을 기반으로 한 segmentation 절차를 제안한다. 보기 좋은 스티커를 만드는 것이 필요하기 때문이다. 모든 사람들은 텔레그램 봇 https://t.me/rudalle_emojich_bot을 사용하여 자신만의 맞춤형 스티커 세트를 생성할 수 있다.

My Discussion

Why this paper?

hype이 높았고, 최근 교수님께서 이모지관련 말씀을 하셨는데 한번 읽어보자고 생각

--> 구체적인 방법론이나 설명이 나와있지 않음

--> transformer 적용했다는 말 같음

--> 별로 유의미하다 생각이 들지 않아 대충 읽고 끝냄

'Paper short review' 카테고리의 다른 글

[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰 (0)	2021.12.22
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰 (0)	2021.12.14
[Paper short review] VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization 논문 리뷰 (0)	2021.12.10
[Paper short review] OBJECT-AWARE CROPPING FOR SELF-SUPERVISED LEARNING 논문 리뷰 (1)	2021.12.03
[Paper short review] Swin Transformer V2: Scaling Up Capacity and Resolution 논문 리뷰 (0)	2021.12.02

ABOUT ME

실현하깃 실현하깃

0. Abstract

1. INTRODUCTION

4. EVALUATION

5. EMOJI GENERATION

6. RESULTS

My Discussion

'Paper short review' 카테고리의 다른 글

티스토리툴바

ABOUT ME

0. Abstract

1. INTRODUCTION

4. EVALUATION

5. EMOJI GENERATION

6. RESULTS

My Discussion

'Paper short review' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바