ECCV 2022 (European Conferences on Computer Vision 2022)에서 발표된 Vision Transformer를 이용한 WSSS입니다. 지난번에 다루었던 MCTformer를 넘어서는 성능을 보여 읽어보았습니다.
1. Introduction
- introduction에서 WSSS 연구의 평가 방법에 대해 설명해주는 것이 좋았습니다. 기본적으로 WSSS 기법을 평가할 때에는, WSSS로 생성한 pseudo-mask를 DeepLab 같은 supervised segmentation network에 학습시킵니다. 이 과정을 "verification task"라고 합니다. pseudo-mask가 얼마나 잘 만들어졌는지 확인하기 위한 작업입니다.
- 이 논문에서도 역시 CNN + CAM based 네트워크의 한계점에 대해서 언급합니다. 특히나 CAM으로 생성한 seed area를 refine 하는 과정을 거쳐야 하기 때문에 multi-stage architecture를 만들어야한다는 점을 꼬집고 있습니다.
- 특히 최근 연구들은 CRF라는 refine method를 주로 사용하는데, 이 방법이 PascalVOC 데이터 외에서는 일반화하기 힘들다는 점을 꼽았습니다.
- 이 연구의 main contribution은 다음과 같습니다.
- ViT-PCM이라는 ViT 기반의 WSSS 모델을 제안합니다.
- CAM에 의존하지 않고 Global Max Pooling (GMP)를 사용한 새로운 pseudo-mask 생성 방법을 제안합니다.
- Pascal VOC 2012, MS-COCO에서 SOTA를 달성했습니다.
- verification task에서 BPM(baseline pseudo-mask, seed)을 boosting 하지 않고도 좋은 성능을 냅니다.
- 다른 모델보다 파라미터가 적어 효율적입니다.
2. Related Works
- CNN plus CAM
- Transformers
3. ViT-PCM model structure
Augmentation
- first branch에서는 일반적인 augmentation을 적용합니다.
- second branch에서는 augmented image 네 장을 크기 조정 후 merge 합니다.
ViT patch encoder
- input image를 입력받고, 결과 feature와 n개의 패치를 반환합니다.
- 여기서 PCM (Patch Class Mapping) 기법을 이용해 각 patch의 class를 분류합니다.
HV-BiLSTM patch conditioning
- 두 개의 bidirectional LSTM이 feature의 row, coloumn을 tensor grid로 변환합니다.
- 두 출력 값이 HV-BiLSTM (Horizontal and Vertical BiLSTM)으로 합쳐지고, Patch Classifier로 전달됩니다.
- HV-BiLSTM은 이웃한 patch에 대한 정보를 증가시킵니다.
Patch Classifier (PC)
- MLP를 이용해 Baseline Pseudo Mask를 생성합니다.
Two branches for Equivariant regularization
- ViT는 positional encoding 때문에 translation equivariant 하지 않습니다. 따라서 equivariance 특성을 학습하기 위해 2개의 branch를 동시에 학습하게 됩니다. (Translation equivariance란?)
Final loss
- MCE (Multi-class cross entropy) loss와 ET (Categorical cross entropy) loss의 결합 final loss를 계산합니다.
4. Experiments and results
- Table A는 BPM 생성 성능, Table B는 그 이후 verification task(Deeplab을 이용한 학습 결과)의 성능을 보여주고 있습니다.
- Table C는 가장 최근에 높은 성능을 보인 모델과 비교한 결과입니다.
- Table D는 DINO의 foreground 생성 성능과 비교한 결과입니다.
- 별 모양은 BPM 성능, 네모 모양은 최종 결과 성능입니다. 본 연구에서 제안한 모델이 파라미터 수 대비 압도적으로 높은 성능 증가율을 보입니다.
Limitations
- 연구진들은 ViT-PCM이 HV-BiLSTM을 사용했기 때문에 다른 모델만큼 pixel relation이나 boundaries, neighbourhoods를 고려하지 않는다는 점을 언급했습니다.
- 최근에는 image-level label 없이도 foreground와 background를 분리해내는 (Unsupervised semantic segmentation) 연구들이 있기 때문에, background 구분 능력이 부족한 본 모델의 개선에 참고할 것이라고 말했습니다.
- 리소스를 제한적으로 유지하기 위해 patch에서 pixel로 스케일링하는 부분이 rough 하다는 점도 언급했습니다.
5. Conclusion
- CAM 기반의 모델들보다 좋은 성능을 보이는 ViT 기반의 end-to-end 모델인 ViT-PCM 모델을 선보였습니다.
- CRF를 post processing에만 사용하고도 여러 데이터셋에서 SOTA 성능을 달성했습니다.
- https://github.com/deepplants/ViT-PCM 에 코드를 공개했습니다.
지난 며칠간 Vision Transformer를 이용한 WSSS 분야에 대해서 논문을 찾아보았는데, 적당한 논문을 찾는 것이 쉽지 않았습니다. 아직 연구 초기인 것으로 보이고, 그만큼 연구해볼 만한 가치가 있다는 것을 말해주는 것 같습니다.
Ref.
https://link.springer.com/chapter/10.1007/978-3-031-20056-4_26