홈
태그
방명록

분류 전체보기 (44)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

실현하깃 실현하깃

컨텐츠 검색

반응형

VIT

[Classification] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 번역 및 정리 (ViT)
Paper review/Classification 2021. 11. 8. 21:04

@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2010.11929.pdf 주요 기여: Standard Transformer를 vision task에 적용 (CNN 구조 대부분을 제거) large dataset에서 사전학습된 네트워크를 transfer learning하여 small image dataset에서 학습 가능 0. Abstract Transformer가 NLP에서는 표준이 되었지만 computer vision task에서는 제한적이다. 기존의 vision task에서 attention은 CNN과 함께 적용되거나, CNN의 특정 요소를 대체하기 위해 사용된다. (EX. DETR은 CNN으로 feature map 획득 후 transformer 수..

이전

1

다음

반응형

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

반응형

Designed by Tistory.

티스토리툴바