분류 전체보기
-
[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰Paper short review 2021. 12. 13. 12:28
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.02448v1.pdf 0. Abstract 본 연구는 러시아어로 된 caption을 조건으로 하여 이모티콘을 생성하는 text-to-image 신경망 "Emojich"를 제안한다. 사전 학습된 ruDALL-E Malevich (XL) 모델을 통해 생성된 이미지에 특별한 스타일을 제공하는 것을 목표로 한다. 본 논문에서는 몇 가지 엔지니어링 방법, 코드 구현, hyper parameter 및 자신만의 맞춤형 스티커 세트를 만들 수 있는 Telegram 봇에 대한 연구가 나와있다. 또한 "Emojich" 모델에 의해 새롭게 생성된 이모티콘도 시연한다. 1. INTRODUCTION 일반적으로 많은 양의..
-
[Image-to-Image] TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up 번역 및 정리 (TransGAN)Paper review/Image-to-Image 2021. 12. 13. 11:46
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2102.07074.pdf 주요 기여 Transformer + GAN -> TransGAN 제안 0. Abstract 최근 Transformer는 NLP뿐만 아니라 CV에서도 사용될 뿐만 아니라 classification, detection, segmentation과 같은 여러 task에서 SOTA를 달성하고 있다. 우리는 이를 generative adversarial networks (GANs)과 같은 어려운 vision task에 적용해본다. 우리의 목표는 Transformer 기반 아키텍처만을 사용하여 GAN을 구축하는 것이다. TransGAN이라고 불리는 우리의 표준 GAN 아키텍처는 feature..
-
[Paper short review] VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization 논문 리뷰Paper short review 2021. 12. 10. 15:22
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://openaccess.thecvf.com/content/CVPR2021/papers/Choi_VITON-HD_High-Resolution_Virtual_Try-On_via_Misalignment-Aware_Normalization_CVPR_2021_paper.pdf 정리: Swin transformer 개선 모델인 Swin transformer V2를 제안한다. 기존 모델의 기술적인 부분을 개선하고, 큰 모델에 전이할 때의 문제점을 개선한다. 이를 통해 classification, detection, segmentation, video action classification 4가지 CV task에서 SOTA를 달성한다. 0. Abs..
-
[Image-to-Image] Tensor-to-Image: Image-to-Image Translation with Vision Transformers 번역 및 정리Paper review/Image-to-Image 2021. 12. 6. 21:50
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2110.08037.pdf 정리: Image-to-Image 분야에 transformer를 적용 (+ ViT의 patch 아이디어) 0. Abstract Transformer는 도입된 이후로 큰 주목을 받고 있다. Transformer는 NLP는 물론 Vision에서 사용될 수 있다는 것을 증명함에 따라 모든 영역을 차지하기 시작했다. 본 논문에서는 image-to-image translation을 위해 tensor-to-image에 맞게끔 설계된 모델에 기반한 Vision Transformer을 사용한다. Self-attention을 통해, 모델은 한 번의 수정도 없이 일반화하고 다양한 task에 적용할..
-
[NLP] Transformer 정리Paper review/NLP 2021. 12. 6. 15:35
Transformer 구조 우선 Transformer의 구조는 다음과 같다. Transformer과 동일한 차원으로 예제를 수행한다. "I am a student" 라는 문장을 독일어로 번역하는 예제이다. 입력 문장은 다음과 같이 (입력 sequence) x 512 입력으로 들어온다. 이때, transformer는 병렬처리를 수행하기 때문에 문장의 순서 정보를 따로 추가해 주어야 한다. 이를 위해 input embedding에 positional encoding을 추가해준다. Positional encoding Positional encoding을 다양한 방법으로 설정해 보았다. 0~1사이의 라벨 사용: 아래 예시와 같이 문장의 총 길이에 따라 delta가 달라지게 된다 (delta=단어 label 간 ..
-
[NLP] Attention Is All You Need 번역 및 정리 (Transformer)Paper review/NLP 2021. 12. 6. 01:25
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1706.03762.pdf 주요 기여: RNN을 제거함으로써 병렬처리를 가능하게 함 Transformer 제안 0. Abstract 보통의 sequence transduction model들은 인코더와 디코더를 포함하는 rnn 혹은 cnn을 기반으로 하거나 SOTA 모델은 attention 메커니즘을 통해 인코더와 디코더를 연결한다. 우리는 rnn과 cnn을 완전 배제하고 attention 메커니즘만을 사용하는 단순한 아키텍쳐인 transformer를 제안한다. 실험 결과, 우리 모델이 병렬화가 훨씬 용이하고 학습 시간이 훨씬 더 적지만 성능은 높다는 것을 보인다 (28.4 BLEU on the WMT 2..
-
[Paper short review] OBJECT-AWARE CROPPING FOR SELF-SUPERVISED LEARNING 논문 리뷰Paper short review 2021. 12. 3. 23:40
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.00319v1.pdf 정리: self-superevised learning에서 data augmentation인 object-aware cropping 알고리즘을 통한 성능 향상 0. Abstract 최근 self-supervised learning의 핵심 요소는 self-supervised loss에서 positive example로 사용될 이미지의 sub-region을 선택하는 data crop이다. 기본 가정은 주어진 image에서 무작위로 crop하여 ojbect에 대한 정보를 얻는 것이다. 하지만 이는 object가 크고 주로 중심에 존재하는 ImageNet dataset외에 여러 객체가..
-
[Paper short review] Swin Transformer V2: Scaling Up Capacity and Resolution 논문 리뷰Paper short review 2021. 12. 2. 14:27
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.09883v1.pdf 정리: Swin transformer 개선 모델인 Swin transformer V2를 제안한다. 기존 모델의 기술적인 부분을 개선하고, 큰 모델에 전이할 때의 문제점을 개선한다. 이를 통해 classification, detection, segmentation, video action classification 4가지 CV task에서 SOTA를 달성한다. 0. Abstract 우리는 Swin Transformer를 최대 30억 파라미터까지 확장하고 최대 1,536×1,536 해상도의 이미지를 학습할 수 있는 기술을 제안한다. Swin Transformer는 용량과 해상도를..