-
[Paper short review] Are Transformers More Robust Than CNNs? 논문 리뷰Paper short review 2021. 11. 29. 17:20반응형
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용
https://arxiv.org/pdf/2111.05464v1.pdf
0. Abstract
Transformer는 computer vision에서 강력한 알고리즘으로 선택되고 있다. 최근 연구에서는 transformer가 CNN보다도 훨씬 강력하다고 주장하고 있다. 하지만, 이러한 주장은 동일한 환경에서 실험을 수행하지 않았다. 우리는 robustness evaluation을 중심으로 transformer와 CNN간의 정확한 비교를 수행한다.
동일한 환경에서, robustness evaluation의 결과에서 CNN보다 transformer가 더 강력하다는 이전의 주장에 반하는 결과를 얻는다. CNN의 설정만 적절하게 채택한다면, transformer만큼 강력할 수 있다는 것이다. generalization on out-of-distribution samples과 관련하여, 대규모 dataset에 대한 사전 학습이 transformer가 CNN보다 더 나은 성능을 달성할 수 있도록 하는 기본 요구사항이 아님을 보인다. 또한, ablation에서 이러한 일반화가 다른 학습 설정보다 transformer의 self attention과 같은 아키텍처에 의해 크게 혜택을 받고 있음을 보인다. 우리는 이 task가 community가 transformer와 CNN의 robustness를 더 잘 이해하고 벤치마킹하는 데 도움이 되기를 바란다. 코드와 모델은 https://github.com/ytongbai/ViTs-vs-CNNs에서 확인할 수 있다.4. Adversarial Robustness
4.1 Robustness to Perturbation-Based Attacks
이전 논문에서 AutoAtack Robustness (조금의 변화에 대해 강건한 정도)에 대한 실험(에서 perturbation radius를 0.001로 설정 시 CNN이 더욱 강건하다는 결론을 내렸지만, 4/255 설정 시 두 모델 모두 broken되는 것을 확인할 수 있다 (표1).
이 외에도 다양한 실험 수행 (아이디어라기 보단, 이것 저것 실험을 다양하게 수행하여 결과적으로 CNN이 transformer에 동등한 정도의 성능을 보인다는 것을 보임 --> 읽다 보니까 굳이 읽어볼 필요 없다 판단함,,)
6. Conclusion
최근 vision task에서 transformer가 좋은 성능을 보이면서 CNN보다 훨씬 강력하다고 주장하는 연구들이 나오기 시작했다. 하지만, 이는 모두 공정하지 않은 환경에서 실험이 수행되었다. 이에 따라 우리는 공정한 실험을 수행하여 transformer가 adversarial robustness(미세한 변화에도 모델이 올바른 판단을 내리는 정도: 높을수록 좋음)에 대해 CNN보다 더 강력하지 않다는 것을 보인다. CNN은 transformer의 훈련 방법을 적절하게 채택함으로써 perturbation-based adversarial attack과 patch-based adversarial attack 모두에 있어서 transformer와 유사한 성능을 달성한다. Transformer의 self-attention과 같은 아키텍처가 핵심이라는 것도 알게되었다.
우리는 이 연구가 transformer에 대한 이해를 조명하고 comunity가 transformer와 CNN 간의 robustness를 공정하게 비교하는 데 도움이 되기를 바란다.
반응형'Paper short review' 카테고리의 다른 글