전체 글
-
[Paper short review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 논문 리뷰Paper short review 2021. 12. 1. 21:51
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2103.14030v2.pdf 정리: CV의 backbone역할을 할 수 있는 Swin Transformer를 제안하였다. 이 방법론은 nlp에 특화된 transformer를 image에 잘 적용될 수 있게끔 하는 hierarchical transformer와 shifted-windows self-attention layer를 제안한다. hierarchical transformer는 CV에서 FPN(feature pyradmid network)와 비슷한 역할을 수행하고, 각 window(MxM개의 patch를 포함하는 영역) 내에서 self-attention을 수행한다. 추가적으로 window를 옮기면서 ..
-
[Paper short review] It’s About Time: Analog Clock Reading in the Wild 논문 리뷰Paper short review 2021. 11. 30. 16:31
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.09162v1.pdf 0. Abstract 본 논문에서는 이미지 혹은 비디오에서 아날로그 시계를 읽기 위한 방법론을 제안한다. 다음과 같은 기여를 한다. 합성 시계를 생성하기 위한 파이프라인을 통해 labeling 비용 감소 시계 정렬과 인식을 end-to-end로 학습한 spatial transformer networks (STN)에 기반한 시계 recognition 방법론을 제안 (합성 dataset에서 훈련된 후 실제 image에 잘 적용됨) label이 없는 dataset에 대해 신뢰할 수 있는 유사 label을 생성하는 방법 제안 추가적으로 COCO, open images, the clo..
-
[Paper short review] Are Transformers More Robust Than CNNs? 논문 리뷰Paper short review 2021. 11. 29. 17:20
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.05464v1.pdf 0. Abstract Transformer는 computer vision에서 강력한 알고리즘으로 선택되고 있다. 최근 연구에서는 transformer가 CNN보다도 훨씬 강력하다고 주장하고 있다. 하지만, 이러한 주장은 동일한 환경에서 실험을 수행하지 않았다. 우리는 robustness evaluation을 중심으로 transformer와 CNN간의 정확한 비교를 수행한다. 동일한 환경에서, robustness evaluation의 결과에서 CNN보다 transformer가 더 강력하다는 이전의 주장에 반하는 결과를 얻는다. CNN의 설정만 적절하게 채택한다면, transfo..
-
[Object detection] YOLO9000:Better, Faster, Stronger 번역 및 정리 (YOLOv2)Paper review/Object Detection 2021. 11. 22. 15:39
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1612.08242.pdf 주요 기여: YOLO를 보완하여 정확도와 속도를 높인 YOLOv2 제안 9000 카테고리를 구분할 수 있는 YOLO9000 제안 (기존 detection dataset인 coco는 80 class) 0. Abstract 기존 YOLO에 대한 다양한 개선을 제안한 YOLOv2는 속도 및 성능 측면에서 모두 SOTA를 달성한다 (67fps에서 76.8mAP, 40fps에서 78.6mAP). object detection 및 classification에서 jointly train 방법을 제안한다. COCO dataset과 ImageNet dataset을 동시에 학습한다. 이를 통해 l..
-
[Classification] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 번역 및 정리 (ViT)Paper review/Classification 2021. 11. 8. 21:04
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.11929.pdf 주요 기여: Standard Transformer를 vision task에 적용 (CNN 구조 대부분을 제거) large dataset에서 사전학습된 네트워크를 transfer learning하여 small image dataset에서 학습 가능 0. Abstract Transformer가 NLP에서는 표준이 되었지만 computer vision task에서는 제한적이다. 기존의 vision task에서 attention은 CNN과 함께 적용되거나, CNN의 특정 요소를 대체하기 위해 사용된다. (EX. DETR은 CNN으로 feature map 획득 후 transformer 수..
-
[Computer Vision] Learning Deep Features for Discriminative Localization 번역 및 정리 (CAM)Paper review/Computer Vision 2021. 11. 5. 18:04
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf 주요 기여: GAP(global average pooling)을 통해 object localization을 수행하고 성능을 높임 0. Abstract 우리는 다양한 실험에서 우리의 네트워크가 분류 과제를 해결하기 위한 훈련을 받았음에도 불구하고 차별적 이미지 영역을 국소화 할 수 있다는 것을 입증한다. 본 연구는 GAP를 통해 CNN이 image 학습 후에(classification이 어떻게 결정되는지 주목하는 위치에 대한 정보가 없는 label만을 학습) localization 능력을 가질 수..
-
[Document Enhancement] BEDSR-Net: A Deep Shadow Removal Network From a Single Document Image 번역 및 정리 (BEDSR-Net)Paper review/Document Enhancement 2021. 11. 4. 17:21
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.04159.pdf 주요 기여: 최초로 딥러닝을 문서 shadow 제거 알고리즘에 적용 문서 shadow dataset 구축 0. Abstract 대부분의 기존 문서 이미지 shadow 제거 알고리즘은 hand-crafted heuristics이며 특징이 다른 문서에 강건하지 않다. 본 논문은 문서 이미지 shadow 제거를 위한 Background Estimation Document Shadow Removal Network (BEDSR-Net)를 제안한다. Background estimation module(BE-Net)은 문서의 global 배경색을 추출하기 위해 설계되었다. 배경색을 추정하는 ..
-
[Object detection] End-to-End Object Detection with Transformers 번역 및 정리 (DETR)Paper review/Object Detection 2021. 11. 3. 13:55
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2005.12872.pdf 주요 기여: 기존의 object detectino에 비해 간단하고 좋은 성능 DETR 제안: 이분 매칭 손실 함수 + Transformer 적용 0. Abstract 본 논문은 Object detection을 set prediction 문제로 다룸으로써 NMS(non-maximum suppression)이나 anchor generation과 같은 사전 지식 요소를 제거하여 pipeline을 간소화한다. Set prediction은 수학에서의 집합의 의미와 비슷하다. Set은 중복되지 않고 순서에 상관없다는 특징을 활용하여 휴리스틱한 NMS나 anchor와 같은 사전 지식을 제거한..