본문 바로가기

딥러닝

[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 48회차 미션

인공지능강의

PART 5) 딥러닝 최신 트렌드

13. Ch 02. Multi Object Detection - 02. RCNN

 

RCNN Familiy

R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN

 

RCNN의 구조

1. Input image

2. Extract region propsals (~2k)
- 2000 Bounding Box , Selective Search (Cropping).

- 227x227 pixel size Warping

카테고리와 무관하게 물체의 영역을 찾는 모듈

3. Compute CNN features

각각의 영역으로부터 고정된 크기의 Feature Vector를 생성

4. Classify regions

분류를 위한 선형 지도학습 모델 Support Vector Machine(SVM)

 

Selective Search

객체와 주변간의 색감(Color), 질감(Texture) 차이, 다른 물체에 애워쌓여있는지(Enclosed) 여부 파악해서 다양한 전략으로 물체의 위치를 파악할 수 있도록 하는 알고리즘. Bounding box들을 Random 하게 많이 생성을하고 이들을 조금씩 Merge 해나가면서 물체를 인식

 

Warping Image

CNN 의 input 에 맞게 모든 Box image 들을 왜곡하여 넣음

 

CNN

Warping 된 Image 를 CNN 에 넣어줌

AlexNet 을 Detection class 에 맞게 변형한 구조를 이용

 

Classification

Support Vector Machine (SVM) 와 Bounding Box Regression 사용함.

 

RCNN 단점.

1. 오래걸린다.

Selective Search에서 뽑아낸 2000개의 영역 이미지들에 대해서

모두 CNN모델에 classification

Training Time: 무려 84시간

Testing Time은 GPU K40 사용 기준으로 frame당 13초

CPU를 사용하였을 때 frame당 53초가 걸립니다.

2. 복잡하다 R-CNN은 Multi-Stage Training을 수행하며,

CNN, SVM, 그리고 Bounding Box Regression까지

총 세 가지의 모델을 필요로 하는 복잡한 구조

3. Back Propagation이 안된다.

SVM, Bounding Box Regression에서 학습한 결과가 CNN을 업데이트 시키지 못합니다.

 

14. Ch 02. Multi Object Detection - 03. Fast RCNN, Faster RCNN

Fast RCNN 

통합된 프레임 워크에 Feature Extractor, Classifier, Regressor 결합.

 

Spatial Pyramid Pooling

Warping 에서 일어나는 정보손실을 막으며, 이미지의 차원을 맞추기 위한 방법 일정 개수의 지역으로 나눈 뒤, 각 지역에 BoW 를 적용.

 

Region of Interest Pooling

각 bin에 대해 max pooling 또는 average pooling을 취함

 

Fast R-CNN은 전체 이미지에 대해 1 CNN만 동작하므로 R-CNN에 비해 160배 빠른 효과를 보임.

 

Faster RCNN

region proposal network(RPN)[ CNN-> feature maps -> propsals -> RoI pooling -> classifier ]에 다른 비율의 anchor box를 사용.

 

 

https://bit.ly/3g72Rmm

 

딥러닝/인공지능 올인원 패키지 Online. | 패스트캠퍼스

Tensorflow2.0부터 Pytorch까지 딥러닝 대표 프레임워크를 정복하기. 생활 깊숙이 침투한 인공지능, 그 중심엔 딥러닝이 있습니다. 가장 강력한 머신러닝의 툴로서 주목받는 딥러닝은 생각보다 어려��

www.fastcampus.co.kr