전체 글
-
[Document Enhancement] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement 번역 및 설명Paper review/Document Enhancement 2022. 1. 12. 15:01
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.08764.pdf 정리: 문서 이미지 향상 task에서 처음으로 GAN을 사용 및 loss 함수 추가, SOTA 달성 0. Abstract 디지털화 된 문서는 다양한 손상을 받고, 이는 OCR의 성능을 저하시킨다. 본 논문에서는 conditional GAN(cGAN)을 사용하여 손상된 문서 이미지를 복원하는 endo-to-end 프레임워크 DE-GAN(Document Enhancement Generative Adversarial Network)을 제안한다. 문서 이미지 강화 task에서 처음으로 generative adversarial deep networks 사용 다양한 task(문서 정리, 이..
-
[Image-to-Image] Image-to-Image Translation with Conditional Adversarial Networks 번역 및 정리 (Pix2Pix)Paper review/Image-to-Image 2022. 1. 6. 13:45
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1611.07004.pdf 주요 기여 0. Abstract Image-to-image translation에 대한 범용 솔루션으로서 conditional adversarial networks를 탐색 이러한 network는 input 이미지에서 output 이미지로의 매핑을 학습할 뿐만 아니라 이 매핑을 훈련시키기 위한 손실 함수를 학습 이를 통해 label map에 사진을 합성하고, edge map에서 object를 재구성하고, image를 컬러화하는 데 효과적이라는 것을 입증 mapping 함수와 손실 함수를 수작업으로 설계하지 않고도 합리적인 결과를 얻을 수 있음 1. Introduction Image..
-
[Image-to-Image] Conditional Generative Adversarial Nets 번역 및 정리Paper review/Image-to-Image 2022. 1. 5. 12:29
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1411.1784.pdf 주요 기여: CGAN의 제안을 통해 데이터의 제어가 불가능했던 기존의 GAN을 개선하여 조건에 따른 데이터를 generate하는 것을 가능하게 함 0. Abstract GAN(ganerative adversatial nets)의 조건부 버전인 CGAN(Conditional Generative Adversarial Nets)을 제안 조건부 = y 데이터 (label) 지정 가능 CGAN을 통해 MNIST에서 class 별 data를 생성할 수 있음 (0~9) multi-modal에 어떻게 사용되는지와 image tagging에 대한 예시를 보임 1. Introduction GAN은 ..
-
[Paper short review] Vision Transformer for Small-Size Datasets 논문 리뷰Paper short review 2021. 12. 31. 17:59
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.13492v1.pdf 정리: SPT(Shifted Patch Tokenization)과 LSA(Localy Self-Attention)를 적용함으로써 기존 vision transformer의 locality inductive bias 부족 문제를 완화함 0. Abstract Transformer를 vision task에 적용한 vision transformer(ViT)가 높은 성능을 보임 하지만, 대규모 dataset을 사용한 pretraining을 기반으로 함 (이는 locality inductive bias 부족 때문) 이를 해결하기 위해 본 논문에서는 SPT(Shifted Patch Toke..
-
[Image-to-Text] Donut : Document Understanding Transformer without OCR 번역 및 정리Paper review/Image-to-Text 2021. 12. 24. 15:28
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.15664v1.pdf 주요 기여: 0. Abstract 딥러닝 기반 Optical Character Recognition(OCR)의 발전을 통해 현재의 Visual Document Understanding(VDU) 시스템이 OCR을 기반으로 설계되게 되었다. 이러한 OCR 기반 접근방식은 합리적인 성능을 보장하지만, (1) 높은 계산 비용 (2) OCR error propagation으로 인한 성능 저하 와 같은 OCR에 의해 유발되는 문제로 인해 어려움을 겪는다. 본 논문에서, 우리는 OCR을 사용하지 않고도 end-to-end 학습이 가능한 새로운 VDU 모델을 제안한다. 이를 위해 대규모 실..
-
[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰Paper short review 2021. 12. 22. 12:09
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.08275v1.pdf 정리: 비디오 segmentaion을 각 fram으로 처리하지 않고, 하나의 instance에 대해 여러 frame을 고려함. Bur. 전체 프레임을 고려하다 보니 실시간 처리가 불가능하다는 한계점이 존재함. 0. Abstract 본 연구에서는 비디오 instance segmentation을 위한 간단한 모델 SeqFormer를 제안한다. 모델은 instance간의 관계를 파악하는 vision transformer를 따른다. 독립된 instance query가 비디오에서 instance의 시간 sequnce를 포착해야 하지만, attention 메커니즘은 각 프레임에서 독립적..
-
[Document Enhancement] Document Enhancement using Visibility Detection 번역 및 정리Paper review/Document Enhancement 2021. 12. 21. 11:50
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://openaccess.thecvf.com/content_cvpr_2018/papers/Kligler_Document_Enhancement_Using_CVPR_2018_paper.pdf 주요 기여: 0. Abstract 본 논문은 Document Enhancement의 고전적인 문제를 다룬다. 핵심 아이디어는 최신 알고리즘에 새로운 정보를 제공하여 결과를 개선하는 것이다. 흥미롭게도, 이 새로운 정보는 관련 없어 보이는 3d visibility detection의 솔루션을 기반으로 한다. 이미지를 3D point cloud로 간단하게 표현하면 이 cloud에서 visibility를 감지하는 새로운 해석을 제공한다. What does ..
-
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰Paper short review 2021. 12. 14. 11:48
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2112.05682v1.pdf 정리: self-attention의 연산 과정에 트릭을 사용하여 공간 복잡도를 기존 O(n^2)에서 O(log n)로 줄인 알고리즘 제안 0. Abstract Sequence 길이와 관련하여 O(1) 메모리가 필요한 attention 알고리즘과 O(log n) 메모리가 필요한 self-attention 알고리즘을 제안한다. 기존 self-attnetion은 O(n^2) 메모리를 필요로 한다. 본 논문에서 제안하는 알고리즘도 시간 복잡도는 여전히 O(n^2)이지만 현재 가장 큰 문제인 메모리 문제를 완화한다. 따라서 attention의 메모리 요구 사항을 줄이면 더욱 긴 시퀀스..