YOLO9000: Better, Faster, Stronger

– YOLOv2의 성능

– 성능 향상의 요인

1. Batch Normalization

– 모든 컨볼루션 레이어에 배치 정규화를 추가

2. High Resolution Classifier

– ImageNet 데이터로 classfication net을 먼저 학습시켜서 고해상도 이미지에도 잘 동작하게 함

3. Convolutional

– FCL(Fully Conneted Layer)를 Convolution Layer로 대체

4. Anchor Boxes

– 경계 박스를 처음부터 직접 예측 -> 앵커 박스를 초기값으로 사용하여 예측

5. new network

– Darknet-19 를 특징 추출기로 사용

6. Dimension Clusters

– 실제 경계 박스들을 클러스터링하여 최적의 앵커박스를 찾음

7. Location prediction

– 위치 예측 파라미터에 sigmoid 함수를 사용하여 네트워크의 학습이 보다 안정적이다.

8. passthrough

– 26×26 크기의 중간 특징맵을 skip 하여 13×13레이어에 붙임(concatenate)

9. Multi-Scale Training

– 학습데이터의 크기를 320×320, 352×352, …, 608×608 로 resize 하면서 다양한 스케일로 학습시킴

10. Fine-Grained Features

– 최종 특징맵의 크기를 7×7에서 13×13으로 키움

1. Batch Normalization

– 배치 정규화는 미니배치를 사용하여 학습할 때 학습이 빠르게 수렴하도록 해주고,

정규화(regularization)효과도 있는 것으로 알려져있다.

2. High Resolution Classifier

– Darknet-19를 classfication network로 사용하여 ImageNet 데이터를 epoch 10으로 학습시킨다.

너무 많이 학습하게 되면 가중치들이 클래스 분류에만 너무 특화되도록 학습되기 때문이다.

– 마지막 컨볼루션 레이어와 Avgpool, Softmax를 제거하고 오브젝트 디텍션 레이어4개를 추가한다.

이 최종 네트워크로부터 경계 박스와 오브젝트 검출에 대한 학습이 시작된다.

3. Convolutional

– 기존의 YOLO는 마지막 단의 FCL 에서 부터 경계 박스의 좌표정보를 직접 예측했다.

– YOLOv2는 FCL을 Convolution으로 대체했다.

4. Anchor Boxes

– 앵커 박스를 사용하면서 공간 위치로부터의 클래스 예측 매커니즘도 분리시켰다.

– 모든 앵커 박스에 대해서 그것이 오브젝트일 확률를 예측하고 클래스를 분류한다.

– 예측된 경계 박스가 오브젝트일때 어떤 클래스인지를 예측하기 때문에 이것은 조건부 확률이 된다.

– 앵커박스를 사용하면서 정확도(accuracy)는 69.5 mAP 에서 69.2 mAP 로 조금 떨어졌으나

재현율(recall)은 81%에서 88%로 크게 상승했다.

5. new network

– Darknet-19 를 특징 추출기로 사용

– VGG와 유사하지만 연산량이 훨씬 적다.

6. Dimension Clusters

– 어떤 앵커박스를 사용할 지에 대해 결정해야 한다.

– 기존의 앵커박스는 종횡비가 1,1/2,2 인 직사각형을 사용했다.

– YOLOv2는 VOC 와 COCO 데이터셋에 있는 오브젝트의 경계 박스를 클러스터링해서 앵커박스의

종횡비와 크기를 결정했다.

7. Location prediction

– 위치 예측 파라미터에 sigmoid 함수, 경계박스의 중심이 그리드셀 안에 있어야 한다는 등의

제약(constrain) 을 걸어놓아서 네트워크의 학습이 보다 안정적이다.

8. passthrough

– YOLO 는 하나의 특징맵에서만 경계 박스 후보를 제안한다.

– YOLOv2 의 13×13 특징맵은 큰 오브젝트 검출할 때에는 크기가 충분하지만 작은 오브젝트에

대해서는 불충분 할 수 있다.

– Faster R-CNN 이나 SSD 의 경우에는 크기가 다른 특징 맵에서 크기가 다른 경계 박스 후보를

제안하는 것으로 이문제를 해결한다.

– YOLOv2는 이 문제에 대한 해결방법으로 간단한 skip-layer 를 사용했다.

– 26×26 크기의 중간 특징맵을 skip 하여 13×13레이어에 붙인다(concatenate).

– 26×26 특징맵에는 13×13 특징맵에 비해 고해상도의 특징이 들어있다.

– 두 개의 특징맵의 크기가 다르기 때문에 그냥 붙일 수는 없다.

– 26x26x512 의 특징맵을 13x13x(512*4) 특징맵으로 변환한다.

– 26×26 의 특징맵의 한 포인트에서 주위 2×2의 데이터를 4채널로 모양을 바꿔준다.

9. Multi-Scale Training

10. Fine-Grained Features

YOLO9000: Better, Faster, Stronger

Leave a Reply Cancel reply