반응형
Paper review/Image-to-Text
-
[Image-to-Text] Donut : Document Understanding Transformer without OCR 번역 및 정리Paper review/Image-to-Text 2021. 12. 24. 15:28
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2111.15664v1.pdf 주요 기여: 0. Abstract 딥러닝 기반 Optical Character Recognition(OCR)의 발전을 통해 현재의 Visual Document Understanding(VDU) 시스템이 OCR을 기반으로 설계되게 되었다. 이러한 OCR 기반 접근방식은 합리적인 성능을 보장하지만, (1) 높은 계산 비용 (2) OCR error propagation으로 인한 성능 저하 와 같은 OCR에 의해 유발되는 문제로 인해 어려움을 겪는다. 본 논문에서, 우리는 OCR을 사용하지 않고도 end-to-end 학습이 가능한 새로운 VDU 모델을 제안한다. 이를 위해 대규모 실..