[Paper short review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation 번역 및 설명

Paper short review 2022. 2. 10. 15:22

@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용

https://arxiv.org/pdf/2102.04306.pdf

정리: 의료 영상 segmentation + transformer

0. Abstract

기존 의료 영상 segmentation은 모두 U-Net을 기반으로 함
- But. CNN의 본질적인 특성으로 인해 global 특징을 모델링하는 데에 한계
Sequence2Sequence를 위해 제안된 transformer는 self-attention을 통해 global 특징을 모델링하는 데에 탁월
- But. low level의 세부 정보가 충분하지 않아 localization 성능 저하
transformer와 unet의 장점을 모두 활용하는 의료 영상 segmentation 모델인 TransUnet 제안
- transformer는 global context를 추출하기 위해 CNN feature map에서 token화 된 patch를 encoding
- decoder는 encoding된 특징을 증폭시켜 CNN feature map과 결합하여 보다 정확한 localization 수행
- TransUNet은 다양한 의료 application에서 기존 방법보다 우수한 성능 달성
- 코드 및 모델 https://github.com/Beckschen/TransUNet

1. Introduction

의료 영상 segmentation task
- CNN/FCN이 대부분 활용됨
- 특히, skip connection이 있는 encoder-decoder 구조 U-Net이 범용 아키텍처임
CNN의 본질적인 특성은 장거리 관계를 모델링하는 데에 한계점이 존재함
- 이를 해결하기 위해, CNN feature를 기반으로 self-attention을 수행하는 방법이 제안되었다.
- CNN과 달리, transformer는 global context를 모델링하는 데에 강건함
- transformer는 NLP에서 크게 성공, 최근에는 CV task에 적용하여 경쟁력 있는 성능을 보임
의료 영상 segmentation에서 transformer를 활용
- But. standard trnasformer만 사용했을 때, 좋은 성능을 얻지 못함
- transformer는 input을 1D sequence로 처리하고, global context를 모델링하는 데에 효과적이기 때문에, local context 정보가 부족함
- 반면, CNN 기반 아키텍처는 local context 정보 모델링에 효과적
TransUnet 제안
- transformer가 인코딩한 global context와 cnn의 local context를 모두 활용하기 위한 하이브리드 아키텍처 제안

2. Related Works

Combining CNNs with self-attention mechanisms

self-attention을 CNN에 통합하려는 다양한 연구 수행
- Proceedings of the IEEE conference on computer vision and pattern recognition.
- Attention gated networks: Learning to leverage salient regions in medical images.
global self-attention을 포함시키기 위해 transformer 활용

Transformers

Transformer는 기계 번역을 위해 제안되었고, 많은 NLP task에서 SOTA 달성
최근transformer를 CV에서도 활용
- Image transformer. In: International Conference on Machine Learning.
- Generating long sequences with sparse transformers.
- An image is worth 16x16 words: Transformers for image recognition at scale.
최초의 transformer 기반 의료 영상 segmentation 프레임워크 제안

3. Method

목표: H × W 크기의 해당 픽셀 단위 lable map을 예측하는 것
- input: x ∈ R^(H×W×C)인 이미지 (해상도 = H × W, 채널 수 = C)
- 일반적인 메커니즘은 이미지를 feature로 encoding한 후 전체 해상도로 decoding하도록 학습하는 것임
- transformer의 self-attention을 encoder에 도입

3.1 Transformer as Encoder

Image Sequentialization

Vision Transformer와 같이, input x를 2D 패치 {xp^i∈ R ^(P^2 ·C) |i = 1, .., N} sequence로 reshape (
- 패치 사이즈 = P×P
- N = HW/P^2 = 이미지 패치 수 = 입력 시퀀스 길이

Patch Embedding

patch xp를 D차원 embedding 공간에 mapping
- 위치 정보 추가 (Epos)
- E ∈ R ^((P 2 ·C)×D) = patch embedding projection
- Epos ∈ R^(N×D) = position embedding

Transformer encoder는 MSA(Multihead Self-Attention), MLP(Multi-Layer Perceptron) block의 L개의 레이어로 구성
- LN(·) = layer normalization
- zl =은 encoded image representation

3.2 TransUNet

segmentation을 위해, transformer에서 인코딩된 표현 zL ∈ R^(HW/P^2 ×D)을 최대 해상도로 업샘플링 수행
- 인코딩된 형상의 크기를 HW/P^2에서 H/P × W/P로 reshape (sequence -> image)

cascaded upsampler 제안
- transformer와 기존 upsampling을 결합해도 좋은 성능을 얻을 수 있지만, H/P × W/P 는 원래 해상도 H × W보다 훨씬 작기 때문에 이는 최적의 방법이 아님
- 이러한 정보 손실을 보상하기 위해 Trans는UNet은 정확한 localization이 가능하도록 cascaded upsamler와 하이브리드 아키텍처 채택

CNN-Transformer Hybrid as Encoder.

CNN을 통과한 feature map에 대해 transformer 수행
1. 디코딩 시 skip connection을 통해 중간 고해상도 CNN feature map 활용 가능
2. 하이브리드 아키텍처가 standard transformer 보다 높은 성능을 보임

Cascaded Upsampler.

여러 upsamling 단계로 구성된 cascaded upsampler (CUP) 제안
- zL ∈ R^(HW/P^2 ×D)을 zL ∈ R^(H/P × W/P ×D)로 reshape
- H/P × W/P에서 H × W까지 도달하기 위해 cascading multiple upsampling blocks
하이브리드 인코더와 함께 CUP가 U자형 아키텍처를 형성하여 스킵 연결을 통해 다양한 해상도 수준에서 feature 활용 가능

4. Experiments and Discussion

4.1 Dataset and Evaluation

Synapse multi-organ segmentation dataset 사용
- 3779개의 영상
Automated cardiac diagnosis challenge

4.2 Implementation Details

data augmentation 적용 (random rotation, flipping)
모델
- Standard transformer 기반 Encoder: 12개의 transformer layer가 있는 ViT 채택
- Hybrid 설계: ResNet-50과 ViT의 결합 (=R50-ViT)
- ViT와 ResNet-50(=R-50)은 ImageNet에서 사전 학습
- 입력 해상도 = 224x224
- 패치 크기 P = 16
- SGD optimizer: learning rate =0.01, momentum=0.9, weight decay=1e-4, batch=24

4.3 Comparison with State-of-the-arts

기존 SOTA 모델 (V-Net, DARR, U-Net, AttnUNet)들과 TransUnet의 비교 실험 수행 (Synapse)
CUP 디코더의 효과를 입증하기 위해 ViT를 인코더로 사용하고, standard 업샘플링과 CUP를 각각 디코더로 사용하여 비교 수행

R50-ViT-CUP를 기반으로 구축된 skip connection TransUnet이 최상의 결과를 보인다는 것을 확인할 수 있음
- 첫째, ViT-None과 비교하여 ViT-CUP는 평균 DSC와 HD 지표에서 각각 6.36%와 3.50mm 개선
  - 이는 CUP가 기존 업샘플링보다 더 나은 디코딩 전략을 제시한다는 것을 입증
- 또한, ViT-CUP와 비교하여 R50-ViT-CUP는 DSC와 HD 지표에서 각각 3.43%, 3.24mm 추가 개선
  - 하이브리드 인코더의 효과 입증
TranUnet은 기존 방법론에 비해 높은 개선률을 보임
- 트랜스포머가 의료 영상의 미세한 형태를 분할하기 위한 낮은 수준의 단서 정보 부족
  - ViT-CPU의 경우 성능이 높아지지만, U-Net이나 AttnUNet보다는 낮음
  - R50-ViT-CUP의 경우, V-Net와 DARR보다는 성능이 높지만 순수한 CNN 기반 R50-U-Net, R50-Atnunet보다는 낮은 결과를 보임
- Skip connection을 통해 U-Net 구조와 결합한 TransUNet이 SOTA를 달성
  - 의료 영상 segmentation에 중요한 세부 정보(low level)뿐만 아니라 global 특징(high level) 모두를 학습

4.4 Analytical Study

TransUner 평가를 위해 여러가지 설정에서의 실험 수행
1. the number of skip-connections
2. input resolution
3. sequence length and patch size
4. model scaling

The Number of Skip-connections

skip connection 수에 따른 연구 수행
- skip connection을 통해 low level의 정보 활용 가능
- skip connection이 증가할 수록 성능이 향상된다는 것을 확인할 수 있음
- 논문에서는 3개의 skip-connection 채택

On the Influence of Input Resolution

Image 해상도에 따른 연구 수행
- 기본 input size = 224×224
- input size를 512×512로 변경 시 동일한 patch size에서 transformer의 sequence 길이가 약 5배 길어짐
- 유효 sequence 길이가 늘면 성능이 향상되지만, 계산 비용이 매우 늘어나게 됨
- 논문에서는 계산 비용을 고려하여 224x224의 기본 해상도로 수행

On the Influence of Patch Size/Sequence Length.

patch size에 따른 연구 수행
- patch size가 작을 수록 높은 segmentation 성능을 보이지만, 높은 종속성이 발생함 (계산량 많아짐)
- 논문에서는 기본 patch size 16 x 16 채택

Model Scaling

TransUnet의 모델 크기에 따른 연구 수행
- Base, Large 모델 중 Large 모델이 더 좋은 성능을 보이지만, 논문에서는 계산 비용을 고려하여 base 모델 채택

4.5 Visualizations

TransUner의 정성적 결과
1. 기존 CNN기반 방법은 over-segmentation 발생
  - 두 번째 행에서 확인 가능
  - transformer를 활용함으로써 global 특징을 보존한다는 것을 입증
2. 두 번째 행에서
3. 첫 번째 행의 결과를 보면, TransUnet이 다른 모델에 비해 false positive가 적음
  - 이러한 noise를 억제하는 데에 유리하다고 판단 가능
4. Transformer-based 모델 비교 시 TransUnet이 R50-ViT-CUP보다 더 미세한 예측 수행 (EX. 두번째 행)
  - 두 번째 행에서, TransUnet이 더 정교한 예측을 수행
  - 세 번째 행에서, TransUNet은 왼쪽과 오른쪽 신장을 모두 정확하게 예측하지만, R50-ViT-CUP는 왼쪽 신장을 정확히 예측하지 못함
  - 이는 TransUNet이 세부적인 특징 정보를 보존한다는 것을 증명
    - TransUnet은 global, local 정보를 모두 보존하지만, R50-ViT-CUP는 global 정보에만 의존
    - U-Net과 같은 스킵 연결을 transformer 설계에 통합함으로써 정확한 segmentation을 가능하게 함

4.6 Generalization to Other Datasets

TransUnet의 일반화 능력을 평가하기 위해 다른 dataset에 대해서 실험 수행
- 앞의 실험과 유사하게, 기존 방법론에 비해 개선된 성능을 보이는 것을 확인할 수 있음

5. Conclusion

의료 영상 segmentation을 위한 transformer 기반 모델 TransUnet제안
- transformer는 self-attnetion 메커니즘을 통해 global context를 보존
- cnn feature를 시퀀스로 처리한 후 transformer에 input하여 global context 활용
- u자형 아키텍처를 통해 local context 활용
- 기존 FCN 기반 접근법의 대안 프레임워크로서 우수한 성능 달성

My Discussion

Why this paper?

asdf

--> asdf

'Paper short review' 카테고리의 다른 글

WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰 (0)	2022.02.07
[Paper short review] Vision Transformer for Small-Size Datasets 논문 리뷰 (0)	2021.12.31
[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰 (0)	2021.12.22
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰 (0)	2021.12.14
[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰 (0)	2021.12.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

실현하깃 실현하깃

0. Abstract

1. Introduction

2. Related Works

3. Method

4. Experiments and Discussion

5. Conclusion

My Discussion

'Paper short review' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

0. Abstract

1. Introduction

2. Related Works

3. Method

4. Experiments and Discussion

5. Conclusion

My Discussion

'Paper short review' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역