2022년 7월 EMBC (IEEE Engineering in Medicine & Biology Society) 콘퍼런스에서 공개된 weakly supervised polyp segmentation 논문입니다. 힘들게 구한 논문인데 4쪽짜리 논문이었고, image-level labeled 데이터만 사용한 줄 알았으나 그게 아니었습니다...
1. Introduction
- 여타 논문들처럼 대장암(CRC, Colorectal cancer)의 발병률 및 치명율을 언급하면서, 대장내시경을 통한 조기진단이 생존율을 높인다는 이야기로 시작하고, U-net과 같은 encoder-decoder 아키텍처 기반의 모델들이 polyp detection, segmentation, characterization 등에 사용되기 시작했다고 합니다.
- HarDNet과 같은 모델에서는 마지막 컨볼루션 레이어로부터 얻은 activation maps의 성능을 올리기 위해 Receptive Field Blocks (RFB)를 이용하기도 했습니다.
- Cascade Fusion Module (CFM)과 Camouflage Identification Module (CIM)을 사용한 Polyp-PVT라는 모델도 있었습니다.
- 여러 연구가 있었으나 이 연구들은 "polyp 덩어리가 항상 존재한다"는 가정하에 진행되었고, 실제 임상 환경에서는 대부분의 프레임이 background에 해당한다는 점을 강조하며 실제 환경에서 쓰기 어려울 것이라고 합니다.
- 본 연구에서는 labeled image에서는 형태와 텍스쳐 요소를 잘 고려하고, background 프레임에서도 강점을 갖는 접근법을 제시합니다. receptive attention module을 사용해 polyp의 형태를 추출하고, 정상 점막과의 차별을 두며, inductive bias를 피할 수 있다고 합니다.
2. Proposed Approach
A. Convolutional deep representation
- polyp의 Feature를 추출하기 위한 pre-trained Res2Net 모델을 backbone으로 사용했습니다.
B. Attention Receptive Field Block
- CNN으로부터 얻는 feature정보만으로는 부족하기 때문에, activation map 3개를 각각 key, query, value로 설정해 attention matrix를 계산합니다.
- polyp과 주변 영역의 텍스쳐가 비슷한 경향을 띄고 있기 때문에, RFB 내부의 dilated convolution을 통해 차이를 인식합니다.
C. Loss Function
- 일반적으로 segmentation loss에 사용되는 IoU (Intersection Over Union)와 이를 보완하기 위해 본 연구에서 제안하는 weight edge contours loss를 이용합니다. 여기 까지만 하면 polyp이 있는 프레임에만 편향되기 때문에, 추가적으로 binary cross entropy를 이용한 class loss를 더해줍니다.
3. Evaluation and Result
- 더 정교한 학습을 위해서 RFB의 커널 사이즈를 {1,3,5}뿐만 아니라 {7, 9}까지 실험해 보았습니다. 그 결과 {1, 3, 5, 7}이 가장 좋은 성능을 보였습니다.
- background 이미지 1450장으로 두고, polyp 이미지의 비율을 변화시키는 실험도 했습니다. IOU 값은 100%의 폴립이미지를 넣었을 때 가장 좋았으나, Background 이미지에서의 분별 능력은 75%일 때 2%(precision) 정도 더 높았습니다.
4. Conclusions
- 연구진은 weakly supervised scheme을 이용해 polyp segmentation 전략을 소개했습니다. polyp이 없는 프레임을 활용했다고 해서 weakly supervised scheme이라는 표현을 사용한 것으로 보입니다.
- receptive attention module을 이용해 background와의 구분을 확실하게 하고, polyp의 표면 특성을 잡아내었습니다.
- 몇몇 데이터셋에서 가장 낮은 False positive rate을 기록했습니다.
- 본 연구에서는 짧은 시퀀스의 영상을 사용했지만, 더 긴 영상을 대상으로도 연구할 것을 목표로 하고 있습니다.
Ref.
https://ieeexplore.ieee.org/abstract/document/9871158/