Paper review
-
[Document Enhancement] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement 번역 및 설명Paper review/Document Enhancement 2022. 1. 12. 15:01
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.08764.pdf 정리: 문서 이미지 향상 task에서 처음으로 GAN을 사용 및 loss 함수 추가, SOTA 달성 0. Abstract 디지털화 된 문서는 다양한 손상을 받고, 이는 OCR의 성능을 저하시킨다. 본 논문에서는 conditional GAN(cGAN)을 사용하여 손상된 문서 이미지를 복원하는 endo-to-end 프레임워크 DE-GAN(Document Enhancement Generative Adversarial Network)을 제안한다. 문서 이미지 강화 task에서 처음으로 generative adversarial deep networks 사용 다양한 task(문서 정리, 이..
-
[Image-to-Image] Image-to-Image Translation with Conditional Adversarial Networks 번역 및 정리 (Pix2Pix)Paper review/Image-to-Image 2022. 1. 6. 13:45
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1611.07004.pdf 주요 기여 0. Abstract Image-to-image translation에 대한 범용 솔루션으로서 conditional adversarial networks를 탐색 이러한 network는 input 이미지에서 output 이미지로의 매핑을 학습할 뿐만 아니라 이 매핑을 훈련시키기 위한 손실 함수를 학습 이를 통해 label map에 사진을 합성하고, edge map에서 object를 재구성하고, image를 컬러화하는 데 효과적이라는 것을 입증 mapping 함수와 손실 함수를 수작업으로 설계하지 않고도 합리적인 결과를 얻을 수 있음 1. Introduction Image..
-
[Image-to-Image] Conditional Generative Adversarial Nets 번역 및 정리Paper review/Image-to-Image 2022. 1. 5. 12:29
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1411.1784.pdf 주요 기여: CGAN의 제안을 통해 데이터의 제어가 불가능했던 기존의 GAN을 개선하여 조건에 따른 데이터를 generate하는 것을 가능하게 함 0. Abstract GAN(ganerative adversatial nets)의 조건부 버전인 CGAN(Conditional Generative Adversarial Nets)을 제안 조건부 = y 데이터 (label) 지정 가능 CGAN을 통해 MNIST에서 class 별 data를 생성할 수 있음 (0~9) multi-modal에 어떻게 사용되는지와 image tagging에 대한 예시를 보임 1. Introduction GAN은 ..
-
[Image-to-Text] Donut : Document Understanding Transformer without OCR 번역 및 정리Paper review/Image-to-Text 2021. 12. 24. 15:28
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.15664v1.pdf 주요 기여: 0. Abstract 딥러닝 기반 Optical Character Recognition(OCR)의 발전을 통해 현재의 Visual Document Understanding(VDU) 시스템이 OCR을 기반으로 설계되게 되었다. 이러한 OCR 기반 접근방식은 합리적인 성능을 보장하지만, (1) 높은 계산 비용 (2) OCR error propagation으로 인한 성능 저하 와 같은 OCR에 의해 유발되는 문제로 인해 어려움을 겪는다. 본 논문에서, 우리는 OCR을 사용하지 않고도 end-to-end 학습이 가능한 새로운 VDU 모델을 제안한다. 이를 위해 대규모 실..
-
[Document Enhancement] Document Enhancement using Visibility Detection 번역 및 정리Paper review/Document Enhancement 2021. 12. 21. 11:50
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://openaccess.thecvf.com/content_cvpr_2018/papers/Kligler_Document_Enhancement_Using_CVPR_2018_paper.pdf 주요 기여: 0. Abstract 본 논문은 Document Enhancement의 고전적인 문제를 다룬다. 핵심 아이디어는 최신 알고리즘에 새로운 정보를 제공하여 결과를 개선하는 것이다. 흥미롭게도, 이 새로운 정보는 관련 없어 보이는 3d visibility detection의 솔루션을 기반으로 한다. 이미지를 3D point cloud로 간단하게 표현하면 이 cloud에서 visibility를 감지하는 새로운 해석을 제공한다. What does ..
-
[Image-to-Image] TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up 번역 및 정리 (TransGAN)Paper review/Image-to-Image 2021. 12. 13. 11:46
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2102.07074.pdf 주요 기여 Transformer + GAN -> TransGAN 제안 0. Abstract 최근 Transformer는 NLP뿐만 아니라 CV에서도 사용될 뿐만 아니라 classification, detection, segmentation과 같은 여러 task에서 SOTA를 달성하고 있다. 우리는 이를 generative adversarial networks (GANs)과 같은 어려운 vision task에 적용해본다. 우리의 목표는 Transformer 기반 아키텍처만을 사용하여 GAN을 구축하는 것이다. TransGAN이라고 불리는 우리의 표준 GAN 아키텍처는 feature..
-
[Image-to-Image] Tensor-to-Image: Image-to-Image Translation with Vision Transformers 번역 및 정리Paper review/Image-to-Image 2021. 12. 6. 21:50
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2110.08037.pdf 정리: Image-to-Image 분야에 transformer를 적용 (+ ViT의 patch 아이디어) 0. Abstract Transformer는 도입된 이후로 큰 주목을 받고 있다. Transformer는 NLP는 물론 Vision에서 사용될 수 있다는 것을 증명함에 따라 모든 영역을 차지하기 시작했다. 본 논문에서는 image-to-image translation을 위해 tensor-to-image에 맞게끔 설계된 모델에 기반한 Vision Transformer을 사용한다. Self-attention을 통해, 모델은 한 번의 수정도 없이 일반화하고 다양한 task에 적용할..
-
[NLP] Transformer 정리Paper review/NLP 2021. 12. 6. 15:35
Transformer 구조 우선 Transformer의 구조는 다음과 같다. Transformer과 동일한 차원으로 예제를 수행한다. "I am a student" 라는 문장을 독일어로 번역하는 예제이다. 입력 문장은 다음과 같이 (입력 sequence) x 512 입력으로 들어온다. 이때, transformer는 병렬처리를 수행하기 때문에 문장의 순서 정보를 따로 추가해 주어야 한다. 이를 위해 input embedding에 positional encoding을 추가해준다. Positional encoding Positional encoding을 다양한 방법으로 설정해 보았다. 0~1사이의 라벨 사용: 아래 예시와 같이 문장의 총 길이에 따라 delta가 달라지게 된다 (delta=단어 label 간 ..