DeepLearning/Object Detection 논문

R-CNN(Regions with CNN features)

by pro robo 2025. 1. 4. 16:39

Object detection 에서 가장 기본이 되는 CNN모델을 어떻게 활용하는지 다양한 논문들을 살펴볼 예정입니다.

 

먼저 Object detection 에서 기본적인 fram work는 다음과 같습니다.

 

  • Class list에 해당되는 모든 object를 찾아서 Class, Bounding box, Confidence를 출력해야한다.

그래서 어떻게 이 Object detection을 하는지 Single Object detection부터 보겠습니다.

 

  • Single object detection
    • classification+localization
      • Alex Net
    • multi-object detection
      • 단일 od를 사용하면 여러개의 이미지를 구분하기 쉽지 않고 위치를 특정잡기 쉽지 않음


    • 해당 단일이 아닌 다중 object를 detection하기위해 Proposal-based models이 나왔고 다음과 같습니다.
      • Proposal-based models
        • 먼저 Proposal를 함(여기에 물체가 있는 것 같다!)→여기에 뭐가 있는지와 박스를 보정하는 방식으로 진행
        • Two-stage model
          • 후보가 되는 박스들을 먼저 만들어내고 추려냄(그 박스들 중에 각각 어떤 클래스인지, 진짜 object를 가지고 있는지)
        • Consists of a region proposal module and a recognition module
        • Ex) R-CNN(CVPR 2014), Fast R-CNN(ICCV 2015), Faster R-CNN(NIPS 2015), R-FCN (NIPS 2016), ION(CVPR 2016), Deformalbe ConvNets(ICCV 2017)
    • 이중 오늘은 R-CNN(Regions with CNN features)을 소개하겠습니다.

R-CNN( Regions with CNN features)

 

 

  • Merit
    • First modern deep learning based image detection.
    • Significantly reduced computation from the brute-force method.
    • (Assuming that the region proposal works well,) detection performs okay.
  • Demerit
    • Still computationally very expensive.
      • Mainly because of ~2000 independent forward passes for each image patch.(2000장의 region을 뽑고 CNN모델에 전부 2000번 돌려야하는데, 너무 오래걸림→ Fast R-CNN 해결)
    • Off-the-shelf region proposal is also computationally expensive.
  • Two-stage model: region proposal + recognition
  • Stage 1: Region proposal(이미지가 주어지면 proposal될만한 region을 뽑아 놓음)
    • Using an off-the-shelf model(기존 개발된 model사용):
    • As region proposal wasn’t that great at that time(1~2 A.D.), they hat to produce large number of proposals (~2000/ image)
  • Stage 2: Object recognition (image classification within the proposal)
    • Any CNN can be used (they used VGG16 or ResNet) to extract image patch feature.
    • Any classifier can be used (they used SVM) to map the features to labels.
  • Bounding Box Regression

 

 

 

 

출처:

https://www.youtube.com/watch?v=W6EVlzVP0TM&ab_channel=JoonseokLee

 

논문:

https://arxiv.org/abs/1311.2524

 

 

'DeepLearning > Object Detection 논문' 카테고리의 다른 글

Faster R-CNN 논문 리뷰  (1) 2025.01.04
Fast R-CNN 논문 리뷰  (0) 2025.01.04