[Paper short review] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation 논문 리뷰

Paper short review 2021. 12. 22. 12:09

@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용

https://arxiv.org/pdf/2112.08275v1.pdf

정리: 비디오 segmentaion을 각 fram으로 처리하지 않고, 하나의 instance에 대해 여러 frame을 고려함. Bur. 전체 프레임을 고려하다 보니 실시간 처리가 불가능하다는 한계점이 존재함.

0. Abstract

본 연구에서는 비디오 instance segmentation을 위한 간단한 모델 SeqFormer를 제안한다. 모델은 instance간의 관계를 파악하는 vision transformer를 따른다. 독립된 instance query가 비디오에서 instance의 시간 sequnce를 포착해야 하지만, attention 메커니즘은 각 프레임에서 독립적으로 수행된다. 이를 위해 SeqFormer는 각 프레임에서 instance를 찾고 시간 정보를 집계해서 각 프레임의 mask sequence를 동적으로 예측하는 데 사용되는 비디오 레벨 instance의 강력한 표현을 학습한다.

YouTubeVIS dataset에서 ResNet-50 backbone인 경우 47.4AP, ResNet-101 backbone인 경우 49.0AP를 달성한다. 이는 각각 SOTA를 4.6, 4.4AP 능가하는 결과이다. Swin transformer backbone인 경우 59.3AP를 달성한다.

SeqFormer를 통해 비디오 instance segmentation task에서 많은 연구가 수행되길 바란다. 코드와 pretrained 모델은https://github.com/wjf5203/SeqFormer 에서 확인할 수 있다.

3. Method

3.1. Architecture

네트워크 아키텍처 아래 그림과 같다. SeqForm에는 CNN backbone과 각 프레임에서 feature map을 독립적으로 추출하기 위한 transformer encoder가 있다. Transformer encoder는 instance sequence를 찾고 비디오 레벨 instance 표현을 생성하도록 학습된다. 마지막으로 instance classification, instance sequence segmentation 및 bounding box prediction에 3개의 output head가 사용된다.

Backbone

비디오 input x_v ∈ R^(T×3×H×W)r가 주어지면, CNN backbone은 각 프레임에 대해 독립적으로 feature map을 추출한다 (T=프레임 수, 3=채널, HxW=해상도).

Transformer Encoder

먼저, 1 × 1 convolution을 통해 모든 feature map의 채널 차원을 C=256으로 줄여 새로운 feature map {f't}, f't ∈ R^(C×H'×W'), t ∈ [1, T]을 만든다. fixed positional encodings을 추가한 후 transformer encoder는 feature map에서 deformable attention을 수행하여 input과 동일한 해상도의 ouput feature map {f't}, t ∈ [1, T]를 생성한다. 각 프레임에 독립적으로 attention 메커니즘을 수행하기 위해, 우리는 feature map을 한 차원으로 평평하게 만드는 대신 feature map의 spatial 및 temporal 차원을 유지한다.

Query Decompose Transformer Decoder

비디오가 주어지면, 인간은 비디오를 각각의 이미지로 판단하지 않고 하나의 비디오로 인식한다. 이 아이디어를 기반으로 프레임 전반에 걸친 보다 강력한 비디오 레벨 instance 표현을 학습하는 것을 목표로 하는 query decompose transformer decoder를 제안한다.

Instance query라는 각 프레임에서 동일한 instance의 feature를 쿼리하기 위해 fixed number of learnable embeddings을 도입한다. VisTR의 프레임 수준 instance에 해당하는 instance query와 달리 우리의 instance query는 비디오 수준 instance에 해당한다. 시간이 지남에 따라 instance의 모양과 위치가 변경되기 때문에 모델은 각 프레임의 정확한 공간 위치에 초점을 맞추어야 한다. 이를 위해 instance query를 각각 해당 프레임에서 feature를 검색하고 찾는 anchor 역할을 하는 T frame-specific box queries로 decompose할 것을 제안한다.

첫 번째 decoder layer에서 instance query Iq ∈ R^(C)는 각 프레임의 feature map에서 instance feature을 독립적으로 query하는 데 사용된다.

Bt^1 ∈ R^(C)는 첫 번째 decoder layer의 t 프레임에 대한 box query이다. DeformAttn은 deformable attention module을 의미한다. Query 요소와 frame feature map ft가 주어지면 deformable attention은 작은 key sampling points set에만 적용된다. l-th(l>1) layer에서 box query Bt^(l−1)sms input으로 주어진다.

그리고 instance query는 모든 box query 의 가중합에 의해 시간적 특징을 취합한다.

Nd decoder layer 후에 instance query와 각 instance에 대한 T box query를 얻는다. Instance query는 공유 비디오 수준 instance 표현이며 box query는 각 프레임의 bounding box를 예측하기 위한 위치 정보를 포함한다. N instance query는 output instance embedding 및 T box embedding {BEt}, BEt ∈ R^(N×d)로 변환된다.

Output Heads

Decoder output head에 mask head, box head, class head를 추가한다.

3.2. Instance Sequences Matching and Loss

L_match는 다음과 같다. 이때, y는 groud truth instance set이고, yˆ은 predicted instance set이다. 그리고 c는 클래스, b는 bounding box 정보를 의미한다.

L_match를 최소화하는 yˆ 순열 조합을 σˆ이라 한다.

앞서 구한 yˆ 순열 조합인 σˆ에 따라 최종 손실함수 L_Hung를 계산한다 (L_mask는 Dice loss와 Focal loss의 결합).

4. Experiment

4.1. Datasets and Metrics

4.2. Implementation Details

4.3. Main Results

다양한 backbone에서 실험한 결과 모두 SOTA를 능가하는 것을 확인할 수 있다. Swin Transformer를 backbone으로 사용했을 때, 가장 좋은 성능을 보인다.

까다로운 데이터에 대한 실험 결과를 시각화한다.

SeqFormer가 SOTA를 능가하는 것을 확인할 수 있다.

4.4. Ablation Study

4.5. Limitation

SeqFormer는 전체 영상을 입력으로 받아 모든 프레임의 분할 결과를 한 번에 생성하므로 실시간 분할 시나리오에 직접 적용할 수 없다.

5. Conclusion

본 논문에서는 각 프레임에서 독립적으로 attention 메커니즘을 수행하고 각 비디오 레벨 instance에 대해 공유된 강력한 instance query를 학습하는 SeqFormer라는 비디오 instance segmentation을 위한 transformer 아키텍처를 제안했다.

본 방법론이 SOTA를 큰 폭으로 능가한다는 것을 입증했다.

My Discussion

Why this paper?

아주 간단한 비디오 segmentation 모델이라해서 읽음

--> frame을 하나하나의 이미지처럼 다루지 않고 전체를 instance 별로 다룬다는 아이디어가 참신함

--> loss function이 DETR과 아주아주 유사하다고 느낌

--> deformable 관련 논문을 한번쯤은 읽어야 될듯 (Deformable detr도 쓰고, 여기서도 deformable attention 쓰고,,) (+ 쓰다가 생각났는데, 그림자는 사실 연결되어 있음 --> 모든 global을 탐지할 필요가 없고, 주위 픽셀들이? 연관되어 있는지 보면 그림자 형태를 추출할수 있찌 않을까? -> deformable attention을 읽어야겠다)

--> 너무 길어서 읽다가 대충 이런느낌이구나? 하고 고만 읽음ㅎㅎ,,

'Paper short review' 카테고리의 다른 글

WAV2PIX: Speech-conditioned Face Generation using Generative AdversarialNetworks 논문 리뷰 (0)	2022.02.07
[Paper short review] Vision Transformer for Small-Size Datasets 논문 리뷰 (0)	2021.12.31
[Paper short review] Self-attention Does Not Need O(n^2) Memory 논문 리뷰 (0)	2021.12.14
[Paper short review] Emojich – zero-shot emoji generation using Russianlanguage: a technical report 논문 리뷰 (0)	2021.12.13
[Paper short review] VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization 논문 리뷰 (0)	2021.12.10

ABOUT ME

실현하깃 실현하깃

0. Abstract

3. Method

4. Experiment

5. Conclusion

My Discussion

'Paper short review' 카테고리의 다른 글

티스토리툴바

ABOUT ME

0. Abstract

3. Method

4. Experiment

5. Conclusion

My Discussion

'Paper short review' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바