Paper short review
-
[Paper short review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation 번역 및 설명Paper short review 2022. 2. 10. 15:22
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2102.04306.pdf 정리: 의료 영상 segmentation + transformer 0. Abstract 기존 의료 영상 segmentation은 모두 U-Net을 기반으로 함 But. CNN의 본질적인 특성으로 인해 global 특징을 모델링하는 데에 한계 Sequence2Sequence를 위해 제안된 transformer는 self-attention을 통해 global 특징을 모델링하는 데에 탁월 But. low level의 세부 정보가 충분하지 않아 localization 성능 저하 transformer와 unet의 장점을 모두 활용하는 의료 영상 segmentation 모델인 TransUn..
-
WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰Paper short review 2022. 2. 7. 15:05
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://openaccess.thecvf.com/content_CVPRW_2019/papers/Sight%20and%20Sound/Amanda_Cardoso_Duarte_WAV2PIX_Speech-conditioned_Face_Generation_using_Generative_Adversarial_Networks_CVPRW_2019_paper.pdf 정리: 음성 신호를 통해 얼굴 생성 1. Introduction 청각과 시각은 높은 상관관계를 가진다. EX) 목소리만으로 얼굴을, 얼굴만으로 목소리 상상 가능 음성 신호가 주어졌을 때, 얼굴 이미지 생성을 위한 연구 수행 had crafted 작업, 사전 지식을 제거하여 음성신호만으로 얼굴 ..
-
[Paper short review] Vision Transformer for Small-Size Datasets 논문 리뷰Paper short review 2021. 12. 31. 17:59
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.13492v1.pdf 정리: SPT(Shifted Patch Tokenization)과 LSA(Localy Self-Attention)를 적용함으로써 기존 vision transformer의 locality inductive bias 부족 문제를 완화함 0. Abstract Transformer를 vision task에 적용한 vision transformer(ViT)가 높은 성능을 보임 하지만, 대규모 dataset을 사용한 pretraining을 기반으로 함 (이는 locality inductive bias 부족 때문) 이를 해결하기 위해 본 논문에서는 SPT(Shifted Patch Toke..
-
[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰Paper short review 2021. 12. 22. 12:09
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.08275v1.pdf 정리: 비디오 segmentaion을 각 fram으로 처리하지 않고, 하나의 instance에 대해 여러 frame을 고려함. Bur. 전체 프레임을 고려하다 보니 실시간 처리가 불가능하다는 한계점이 존재함. 0. Abstract 본 연구에서는 비디오 instance segmentation을 위한 간단한 모델 SeqFormer를 제안한다. 모델은 instance간의 관계를 파악하는 vision transformer를 따른다. 독립된 instance query가 비디오에서 instance의 시간 sequnce를 포착해야 하지만, attention 메커니즘은 각 프레임에서 독립적..
-
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰Paper short review 2021. 12. 14. 11:48
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.05682v1.pdf 정리: self-attention의 연산 과정에 트릭을 사용하여 공간 복잡도를 기존 O(n^2)에서 O(log n)로 줄인 알고리즘 제안 0. Abstract Sequence 길이와 관련하여 O(1) 메모리가 필요한 attention 알고리즘과 O(log n) 메모리가 필요한 self-attention 알고리즘을 제안한다. 기존 self-attnetion은 O(n^2) 메모리를 필요로 한다. 본 논문에서 제안하는 알고리즘도 시간 복잡도는 여전히 O(n^2)이지만 현재 가장 큰 문제인 메모리 문제를 완화한다. 따라서 attention의 메모리 요구 사항을 줄이면 더욱 긴 시퀀스..
-
[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰Paper short review 2021. 12. 13. 12:28
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.02448v1.pdf 0. Abstract 본 연구는 러시아어로 된 caption을 조건으로 하여 이모티콘을 생성하는 text-to-image 신경망 "Emojich"를 제안한다. 사전 학습된 ruDALL-E Malevich (XL) 모델을 통해 생성된 이미지에 특별한 스타일을 제공하는 것을 목표로 한다. 본 논문에서는 몇 가지 엔지니어링 방법, 코드 구현, hyper parameter 및 자신만의 맞춤형 스티커 세트를 만들 수 있는 Telegram 봇에 대한 연구가 나와있다. 또한 "Emojich" 모델에 의해 새롭게 생성된 이모티콘도 시연한다. 1. INTRODUCTION 일반적으로 많은 양의..
-
[Paper short review] VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization 논문 리뷰Paper short review 2021. 12. 10. 15:22
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://openaccess.thecvf.com/content/CVPR2021/papers/Choi_VITON-HD_High-Resolution_Virtual_Try-On_via_Misalignment-Aware_Normalization_CVPR_2021_paper.pdf 정리: Swin transformer 개선 모델인 Swin transformer V2를 제안한다. 기존 모델의 기술적인 부분을 개선하고, 큰 모델에 전이할 때의 문제점을 개선한다. 이를 통해 classification, detection, segmentation, video action classification 4가지 CV task에서 SOTA를 달성한다. 0. Abs..
-
[Paper short review] OBJECT-AWARE CROPPING FOR SELF-SUPERVISED LEARNING 논문 리뷰Paper short review 2021. 12. 3. 23:40
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.00319v1.pdf 정리: self-superevised learning에서 data augmentation인 object-aware cropping 알고리즘을 통한 성능 향상 0. Abstract 최근 self-supervised learning의 핵심 요소는 self-supervised loss에서 positive example로 사용될 이미지의 sub-region을 선택하는 data crop이다. 기본 가정은 주어진 image에서 무작위로 crop하여 ojbect에 대한 정보를 얻는 것이다. 하지만 이는 object가 크고 주로 중심에 존재하는 ImageNet dataset외에 여러 객체가..