Object detection 에서 가장 기본이 되는 CNN모델을 어떻게 활용하는지 다양한 논문들을 살펴볼 예정입니다.
먼저 Object detection 에서 기본적인 fram work는 다음과 같습니다.
- Class list에 해당되는 모든 object를 찾아서 Class, Bounding box, Confidence를 출력해야한다.
그래서 어떻게 이 Object detection을 하는지 Single Object detection부터 보겠습니다.
- Single object detection
- classification+localization
- Alex Net
- multi-object detection
- 단일 od를 사용하면 여러개의 이미지를 구분하기 쉽지 않고 위치를 특정잡기 쉽지 않음
- 해당 단일이 아닌 다중 object를 detection하기위해 Proposal-based models이 나왔고 다음과 같습니다.
- Proposal-based models
- 먼저 Proposal를 함(여기에 물체가 있는 것 같다!)→여기에 뭐가 있는지와 박스를 보정하는 방식으로 진행
- Two-stage model
- 후보가 되는 박스들을 먼저 만들어내고 추려냄(그 박스들 중에 각각 어떤 클래스인지, 진짜 object를 가지고 있는지)
- Consists of a region proposal module and a recognition module
- Ex) R-CNN(CVPR 2014), Fast R-CNN(ICCV 2015), Faster R-CNN(NIPS 2015), R-FCN (NIPS 2016), ION(CVPR 2016), Deformalbe ConvNets(ICCV 2017)
- Proposal-based models
- 이중 오늘은 R-CNN(Regions with CNN features)을 소개하겠습니다.
- classification+localization
R-CNN( Regions with CNN features)
- Merit
- First modern deep learning based image detection.
- Significantly reduced computation from the brute-force method.
- (Assuming that the region proposal works well,) detection performs okay.
- Demerit
- Still computationally very expensive.
- Mainly because of ~2000 independent forward passes for each image patch.(2000장의 region을 뽑고 CNN모델에 전부 2000번 돌려야하는데, 너무 오래걸림→ Fast R-CNN 해결)
- Off-the-shelf region proposal is also computationally expensive.
- Still computationally very expensive.
- Two-stage model: region proposal + recognition
- Stage 1: Region proposal(이미지가 주어지면 proposal될만한 region을 뽑아 놓음)
- Using an off-the-shelf model(기존 개발된 model사용):
- Selective search van de Sande/Uijlings et al.
- EdgeBoxes [Zitnick & Dollar](0.2s / image)
- MCG [Arbelaez et al.] (30s/image)
- As region proposal wasn’t that great at that time(1~2 A.D.), they hat to produce large number of proposals (~2000/ image)
- Using an off-the-shelf model(기존 개발된 model사용):
- Stage 2: Object recognition (image classification within the proposal)
- Any CNN can be used (they used VGG16 or ResNet) to extract image patch feature.
- Any classifier can be used (they used SVM) to map the features to labels.
- Bounding Box Regression
출처:
https://www.youtube.com/watch?v=W6EVlzVP0TM&ab_channel=JoonseokLee
논문:
https://arxiv.org/abs/1311.2524
'DeepLearning > Object Detection 논문' 카테고리의 다른 글
Faster R-CNN 논문 리뷰 (1) | 2025.01.04 |
---|---|
Fast R-CNN 논문 리뷰 (0) | 2025.01.04 |