본문 바로가기

Computer Vision/Detection, Segmentation

Feature Pyramid Networks for Object Detection

 

Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

Link

 

 

Abstract

  Feature pyramid는 다양한 scale의 object dection에서 중요한 구성요소이다. 하지만, 계산량과 메모리가 많이 필요하기 때문에 pyramid 형태를 피했다. 이 논문에서는 lateral connection을 이용한 top-down architecture을 통해 다양한 scale에서의 high-level semantic feature map을 설계한다. 이를 Feature Pyramid Network(FPN)이라한다. Faster R-CNN에서 FPN을 사용했을 때 COCO detection의 최고 성능을 보였다. (당시 기준)

 

 

Introduction

  다양한 scale의 물체를 탐지하기 위해서 다음의 여러가지 방법들을 사용하고 있었다.

 

 

 

 

 

  (a)는 이미지를 미리 스케일을 달리하여 독립적으로 특징을 추출하는 방법이다. 이는 연산량이 많아 매우 비효율적이다. (b)는 Conv layer를 통해 특징을 압축하는 방식이지만 다양한 스케일을 고려하지 않고 마지막 특징만을 사용하기 때문에 성능이 떨어진다. (c)는 서로 다른 스케일의 특징 맵을 사용하여 각 레벨에서 독립적으로 객체를 탐지한다. 이는 좋은 방법이나, 상위 레벨 (high semantic feature map)을 재사용하지 않는다는 단점이 있다. 그리고 깊이에 따라 semantic정도가 달라 large semantic gaps가 발생한다. (d)는 이 논문에서 제안하는 FPN으로 top-down 방식으로 특징을 추출한다. skip connection을 통해 forward에서 손실된 지역적인 정보들을 보충하게된다. 

 

 

Feature Pyramid Networks

Bottom-up pathway

  Backbone ConvNet의 feed forward 계산으로, 스케일링이 2인 여러 스케일의 feature map을 계산한다. ResNet의 conv2, conv3, conv4, conv5의 출력을 C2, C3, C4, C5로 표시하고 각각 4, 8, 16, 32의 stride를 가진다. conv1는 메모리 공간이 크기 때문에 포함하지 않는다.

 

Top-down pathway and lateral connections

  Top-down pathway는 upsampling하면서 high resolution feature map을 형성한다. 스케일 2f로 upsampling하며 nearest neighbor upsampling을 사용한다. 매 upsampling마다 bottom-up pathway의 lateral connection을 통해 지역적인 semantic 정보를 보강한다. 이 때, channel을 맞춰주기 위해서 1X1 convolution을 진행한다. 각 feature map은 C2, C3, C4, C5와 대응하여 P2, P3, P4, P5로 표시한다. 

 

 

Conclusion

  ConvNet 내부에 pyramid 구조를 설계하기 위한 간단한 프레임워크를 제시하였다. 이러한 방법은 다른 방법에 비해 상당한 개선을 보여준다. 그리고 피라미드 구조를 사용하는 것이 multi scale object detection에서 중요하다는 것을 보여준다.