Markerless tracking of user-defined features with deep learning

Abstract
본 논문에서는 최소한의 training data를 가지고 우수한 결과를 달성하는 Deep Neural Networks(DNN)를 이용한 전이 학습(transfer learning) 기반의 markerless 추적을 위한 매우 효율적인 방법을 제안한다. 놀랍게도, 적은 수의 프레임이 라벨링된 경우에도(200개), 인간의 정확도에 필적하는 뛰어난 tracking performance을 달성한다.

1. INTRODUCTION
본 논문에서는 다양한 신체 부위의 기하학적 구성에 관심이 있다.
motor control 분야에서 물리적 마커와 비디오 녹화의 조합으로 분석을 크게 단순화하고 높은 정확도로 신체부위를 추적할 수 있다. 그러나 이러한 시스템은 비용이 많이 들고 잠재적으로 마커가 동물에게 방해가 될 수 있으며 기록 전에 마커를 배치해야하며 추적할 수 있는 기능을 미리 정의해야 한다.
물리적 마커의 한 가지 대안은 skeleton / active contour models(골격 / 능동적 윤곽 모델)에 맞추는 것이다. 이러한 방법은 매우 잘 작동하고 빠르지만 정교한 골격 모델을 필요로 하며, 개발 및 데이터에 적합하기가 어렵기 때문에 이러한 방법의 유연성을 제한한다.
또 다른 대안은 DNN의 특징에 기초한 훈련 예측이다. 그러나 라벨이 붙은 데이터 세트는 다소 크다(25,000개). 이는 신경과학 실험실에 대한 효과적인 도구로서 Deep Learning을 실현할 수 없게 만들 수 있다.
그러나 전이 학습으로 인해 실현할 수 있게 되었다.
구체적으로, 본 논문에서는 포즈 추정 알고리즘 중 가장 잘 수행되는 DeeperCut의 특징 검출기 아키텍처를 조사하고, 소수의 트레이닝 이미지(200 개)가 인간 수준의 정확도로 학습시기에 충분하다는 것을 증명한다. 이것은 전이 학습으로 인해 가능하다: 특징 검출기는 객체 인식을 위한 대규모 데이터 세트인 ImageNet에서 미리 훈련된 극도로 깊은 신경 네트워크를 기반으로 한다.

2. RESULT
DeeperCut은 여러 사람들의 포즈 검출에서 뛰어난 성능을 달성했다. 그러나 이러한 성능을 달성하기 위해 신경망 아키텍처는 수천 개의 라벨이 붙은 이미지에 대해 훈련되었다. 여기서 DeeperCut의 subset(특징 검출기로 신체 부위의 위치를 예측하는 판독 레이어를 가진 Deep Residual Neural Networks (ResNet) 의 변형)에 초점을 맞춘다. subset과 전체 DeeperCut을 구별하기 위해, 이 자율적인 부분을 DeepLabCut이라고 부른다. 본 논문에서는 (1) 다양한 실험 행동에서 자세 추적을 위한 DeepLabCut의 성능을 평가하고, (2) 좋은 일반화를 위한 필요한 training data의 양을 조사하며, (3) 신경과학계에서 널리 접근할 수 있는 DeeperCut 기반의 오픈 소스 툴박스를 제공한다.
(https://github.com/AlexEMG/DeepLabCut).

A. Benchmarking
ResNet-50 을 기반으로 한 부분 검출기를 사용하였다. 또한 101개의 레이어를 가진 더 깊은 네트워크를 훈련시켰으며, 훈련과 테스트 오류가 약간 감소하여, 필요한 경우 성능이 더욱 향상될 수 있음을 확인하였다 (Average
test RMSE for 3 identical splits of 50% training set fraction: ResNet-50: 3.09±0.04, ResNet-101: 2.90±0.09 and ResNet-101 with intermediate supervision: 2.88 ± 0.06, pixel mean ± s.e.m.; see Figure S2A).

B. Generalization & transfer learning
먼저, DeepLabCut이 추적 중에 새로운 쥐에게 일반화된다는 것을 발견했다. 둘째로, 훈련된 네트워크가 동일한 프레임 내에서 여러 마리의 생쥐에 걸쳐 여러 신체 부위를 식별할 수 있는지 테스트했다(전이 학습). 놀랍게도 네트워크는 한 마리의 쥐를 포함하는 이미지로만 훈련되었지만, 여러 마리의 상호작용하는 쥐를 가진 이미지에서 각 쥐의 모든 신체 부위를 탐지할 수 있었다.

C. The power of end-to-end training
모든 신체 부위 라벨을 사용하여 동시에 훈련된 네트워크가 특정 부위만 훈련한 네트워크를 거의 두 배로 능가한다는 것을 발견했다. 이 결과는 전체 네트워크에서 end-to-end training으로 가중치를 훈련시키는 것이 성능을 상당히 향상시킨다는 것을 보여준다.

3. DISCUSSION
DeepLabCut이 만족스러운 솔루션을 제공하지 못하는 비디오 분석을 보완할 것이라고 믿는다. 특히 동적 시각 환경에서 그럴것이다. (예: 배경과 반사벽이 다양하거나 손과 같이 매우 관절이 높은 물체를 추적할 때)

A. Dataset labeling and fine-tuning
특정 용도에 대해 DeepLabCut을 교육하기 위해 다양한 이미지(즉, 다른 포즈, 다른 개인, 휘도 조건, 다른 카메라로 수집된 데이터 등)를 일관성 있게 라벨링하고 라벨링된 데이터를 잘 정리할 것을 권장한다.
극히 작은 training set에서도 일반적인 오차는 작을 수 있지만, training set와는 상당히 다른 test set의 큰 오차는 평균 오차를 지배하기 시작할 수 있다.
따라서, 사용자는 스코어 맵을 가이드로 사용하여 초기 training dataset을 반복적으로 확장할 수 있다. 구체적으로, 네트워크 가중치의 사후 fine tuning을 통해 오류를 해결할 수 있다.

B. Speed and accuracy of DeepLabCut
DeepLabCut의 또 다른 중요한 특징은 실험자가 가장 많은 정보를 제공할 것으로 추정되는 부분을 미리 선택하기 때문에 큰 비디오를 low-dimensional time sequence data로 정확하게 변환할 수 있다는 것이다. 그러한 low-dimensional time sequence data는 또한 그것의 계산적 편의성 때문에 행동 군집과 분석에 매우 적합하다. 현대 하드웨어에서는 포즈 추출도 빠르다. 예를 들어, 682 × 540 크기의 초파리의 행동 프레임을 NVIDIA 1080-Ti GPU에서 초당 약 30프레임으로 처리할 수 있다.

C. Conclusions
이 논문과 함께 DeepLabCut이라는 오픈 소스 소프트웨어 패키지를 제공한다. 툴박스는 DeeperCut의 특징 검출기를 사용하고 a) 라벨링을 위한 비디오로부터 별개의 프레임을 추출하고, b) 라벨에 기초한 트레이닝 데이터를 생성하고, c) 원하는 특징 세트에 대한 학습 네트워크를생성하고, d) 라벨링되지 않은 데이터로부터 특징 위치를 추출한다.
일반적인 사용 사례는 실험자가 비디오에서 별개의 프레임을 추출하고 관심있는 신체 부분을 레이블로 표시하여 맞춤 부분 검출기를 만드는 것이다. 그런 다음 몇 시간의 레이블링과 하루동안의 네트워크 훈련을 옹해 새로운 비디오에 적용할 수 있다. 이 논문에서는 쥐와 초파리로 도구 상자의 유용성을 입증하였지만, 이 프레임 워크의 제한은 없으며, 다양한 행동 범위의 다른 모델 또는 비 모델 유기체에 적용될 수 있다.

4. REFERENCE MATERIALS
A. Paper Path
   https://arxiv.org/abs/1804.03142v1
B. DeepLabCut의 적용 사례
   http://www.mousemotorlab.org/deeplabcutdetails
C. Demo 영상

Markerless tracking of user-defined features with deep learning

Leave a Reply Cancel reply