반응형
VIT
-
[Classification] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 번역 및 정리 (ViT)Paper review/Classification 2021. 11. 8. 21:04
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.11929.pdf 주요 기여: Standard Transformer를 vision task에 적용 (CNN 구조 대부분을 제거) large dataset에서 사전학습된 네트워크를 transfer learning하여 small image dataset에서 학습 가능 0. Abstract Transformer가 NLP에서는 표준이 되었지만 computer vision task에서는 제한적이다. 기존의 vision task에서 attention은 CNN과 함께 적용되거나, CNN의 특정 요소를 대체하기 위해 사용된다. (EX. DETR은 CNN으로 feature map 획득 후 transformer 수..