-
[Paper short review] Swin Transformer V2: Scaling Up Capacity and Resolution 논문 리뷰Paper short review 2021. 12. 2. 14:27반응형
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용
https://arxiv.org/pdf/2111.09883v1.pdf
- 정리: Swin transformer 개선 모델인 Swin transformer V2를 제안한다. 기존 모델의 기술적인 부분을 개선하고, 큰 모델에 전이할 때의 문제점을 개선한다. 이를 통해 classification, detection, segmentation, video action classification 4가지 CV task에서 SOTA를 달성한다.
0. Abstract
우리는 Swin Transformer를 최대 30억 파라미터까지 확장하고 최대 1,536×1,536 해상도의 이미지를 학습할 수 있는 기술을 제안한다. Swin Transformer는 용량과 해상도를 높임으로써 image classification, object detection, semantic segmentation, video action classification 4가지 CV분야에서 SOTA를 달성한다. CV에는 다음과 같은 문제점이 존재한다.
- Vision 모델은 종종 scale에서 instability 문제에 직면한다.
- 많은 downstream vision task는 고해상도 이미지 혹은 window를 필요로 한다. 저해상도로 사전 학습된 모델을 고해상도 모델로 효과적으로 전이하는 방법이 명확하지 않다 (성능 하락). 추가적으로, 해상도가 높을 때 GPU 메모리 소모량도 문제가 된다.
이러한 문제를 해결하기 위해, 우리는 Swin Transformer를 기반으로 하는 몇 가지 기술을 제안한다.
- 큰 vision 모델의 안정성을 개선하기 위한 post normalization 기법과 scaled cosine attention 접근법
- 저해상도에서 사전 학습된 모델을 고해상도 이미지로 효과적으로 전이하기 위한 log-spaced continuous position bias technique
- GPU 메모리 소비량을 크게 절약하여 일반 GPU로 대형 비전 모델을 학습할 수 있는 중요한 세부 구현 정보
이를 통해 Swin Transformer 모델을 성공적으로 학습하고 고해상도 이미지 또는 window가 포함된 다양한 vision task로 효과적으로 전송하여 SOTA를 달성한다.
코드는 https://github.com/microsoft/Swin-Transformer에서 확인할 수 있습니다.
3. Swin Transformer V2
3.1. A Brief Review of Swin Transformer
Normalization configuration
기존 Swin Transformer는 아래 그림과 같이 사전 정규화 구성을 활용하기 위해 Language Transformers와 바닐라 ViT의 표준을 따른다. 이를 하위 섹션에서 수정한다.
Relative position bias
상대적 위치 편향은 자기 주의 계산에서 기하학적 관계를 설명하는 추가적인 매개 변수 편향 항을 도입하는 원래 Swin Transformer의 핵심 구성요소이다.
Issues in scaling up model capacity and window resolution
우리는 Swin Transformer의 capacity 및 window 해상도를 확장하는 데 있어 두 가지 이슈를 관찰한다.
1. 모델 capacity를 확장 시 instability 문제 발생. 기존 Swin Transformer 모델을 소형에서 대형으로 확장하면 더 깊은 층의 활성화 값이 크게 증가한다. 가장 높은 amplitudes와 가장 낮은 amplitudes를 가진 layer들 사이의 불일치는 10000의 극한에 도달한다. (H-pre가 기존 swin transformer)
아래 그림과 같이 큰 크기(매개변수 6억 5,800만 개)로 더 확장하면 학습을 진행할 수 없다. (H-pre가 기존 swin transformer)
2. 모델을 전이할 때의 성능 저하. 저해상도에서 사전학습된 모델을 고해상도에 전이하여 정확도 테스트하면 정확도가 크게 떨어진다. 원래의 Swin Transformer에서 relative position bias approach을 재검토할 필요가 있다.
3.2. Scaling Up Model Capacity
오리지널 스윈 트랜스포머는 ViT를 기반으로 하여 block의 시작 부분에 pre nomalization을 수행한다. 이는 모델 용량을 확장할 때 더 깊은 계층에서 활성화 값이 크게 증가하는 것으로 관찰된다.
실제로 pre nomalization 구성에서 각 residual block의 출력 활성화 값은 주 분기에 직접 merge되며, 주 분기의 진폭은 더 깊은 계층에서 점점 더 커진다.서로 다른 layer에서 큰 amplitude discrepancy (진폭 불일치)는 훈련 불안정 문제를 일으킬 수 있다.Post normalization
아래과 같이 post normalization을 사용한다. 이 접근법에서 각 각 residual block의 output은 다시 병합되기 전에 정규화되며, 계층이 더 깊이 들어갈 때 진폭은 누적되지 않는다.
아래 그림과 같이 이 접근법에 의한 활성화 진폭은 원래 사전 정규화 구성보다 훨씬 더 경미해진다. (H-pre가 기존 swin transformer, H-post가 swin transformer V2)
Scaled cosine attention
Post normalization에서 큰 vision 모델에 일부 block과 head의 학습된 attention map이 몇 픽셀 쌍에 의해 지배되버리는 문제를 발견했다. 이를 완화하기 위해, 우리는 스케일링된 코사인 함수에 의해 픽셀 쌍 i와 j의 주의 로직을 계산하는 scaled cosine attention approach을 제안한다.
3.3. Scaling Up Window Resolution
window 해상도에서 relative position bias를 원활하게 전달할 수 있도록 하는 log-spaced continuous position bias approach에 대한 내용이다.
Continuous relative position bias
parameterized biases을 직접 최적화하는 대신, continuous position bias approach은 상대적 좌표에 대한 작은 meta network를 채택한다.
여기서 G는 작은 네트워크이다 (EX. 기본적으로 ReLU 활성화가 중간에 있는 2계층 MLP).
meta network G는 임의의 상대 좌표에 대한 바이어스 값을 생성하므로 자연스럽게 창 크기가 임의로 변화하는 미세 조정 작업으로 전송할 수 있다. 추론에서, 각 상대 위치의 편향 값은 원래 매개 변수화된 편향 접근법보다 추론 시 동일한 편리함을 위해 미리 계산하여 모델 매개 변수로 저장할 수 있다.Log-spaced coordinates
원래 선형 간격 좌표 대신 로그 간격 좌표를 사용할 것을 제안한다.
여기서 Δx, Δy, Δcy는 각각 선형 좌표와 로그스페이스 좌표이다.
이는 원래 선형 공간 좌표를 사용하는 것보다 4배 정도 작은 extrapolation 비율이다.
아래 표를 통해, Log-spaced CPB(continuous position bias) 접근법이 특히 더 큰 window 크기로 전환될 때 가장 잘 수행된다는 것을 알 수 있다.
3.4. Other Implementation
Implementation to save GPU memory
GPU 메모리 소비량 절약을 위한 세부 내용 (생략)
Joining with a self-supervised approach
더 큰 모델은 더 많은 데이터를 필요로 한다. 데이터 부족 문제를 해결하기 위해 self-supervised pre-training과 대형 labeled data를 활용한다.
3.5. Model configurations
기존 swin transforme의 stage, block, channel 설정을 따른다.
huge size(H)와 giant size(G)의 설정은 새로 설정한다.
4. Experiments
ImageNet-1K image classification results
COCO object detection results
ADE20K semantic segmentation results
Kinetics-400 video action classification results
5. Conclusion
post-norm과 scaled cosine attention을 통해 Swin Transformer를 개선하여 최대 1,536×1,536 해상도의 이미지로 학습할 수 있는 기술과 log-spaced continuous relative position bias approach을 제안한다. 이를 Swin Transformer V2라 하며, 다양한 vision task로 효과적으로 전송하여 SOTA를 달성한다.
우리의 연구를 통해, vision과 text간의 차이를 줄이고, 공동 modeling이 가능하게 끔 발전되길 기대한다.
My Discussion
많이 접해봤던 이름의 모델이여서 읽어보기로 결정
--> 기존 swin transformer는 이해가 잘 되었지만, v2는 정확히 이해하기에 좀 어려웠다. 주로 초점을 둔 부분은 큰 모델에서의 구현이었다. 모델을 전이한 후 성능이 떨어지는 문제점을 해결함과 동시에 고해상도로 잘 전이 되도록 개선
--> 참신한 아이디어보단 기술적인 내용이 많음
반응형'Paper short review' 카테고리의 다른 글