Learning Deep Representations of Appearance and Motion for Anomalous Event Detection

Dan Xu, Elisa Ricci, Yan Yan, Jingkuan Song, Nicu Sebe, BMVC in 2015. (paper)

고찰

거의 최초로 딥러닝을 활용한 Video의 Anormaly Activities Detection 문제에 시도한 논문으로 합리적이고 괜찮은 듯함.
Auto Encoder 학습에 pre-train / fine-tuning, SVM 학습, 가중치 학습 등 전체 과정이 End-to-End 학습이 되지 않는 듯 함 –> 적절한 대안을 찾으면 Contribution 가능할 듯.
Motion 정보를 활용하기 위해 Dense Optical Flow를 이용함. –> Dense Optical Flow는 Low-level 정보라 하기에 연산량이 매우 많고 복잡하기 때문에 Motion 정보를 활용하기 위해서 Sequencial한 정보를 활용하는 다른 방법을 고려해 보는 것도 좋을 것 같음.
전통적인 Background Modeling 방법들과 달리 General 하게 사용하지 못할 것 같음. : Auto-Encoder 학습에서 주어진 데이터셋의 scene에 최적화 되어 있기 때문에 전혀 다른 상황의 이미지가 주어지면 Appearance feature에서 Outlier Score가 높게 나타날 것 같음. General하게 할 수 있다면 Contribution을 찾을 수 있을 것 같음.
Auto Encoder 학습 시 평균을 0에 가깝게 학습을 하는 Sparsity Constraint를 적용함. 그렇게 하면 Feature들이 0을 중심으로 생성되지만 분산이 크게 나타날 수도 있을 것 같은데, 분산이 최종 Anormaly Score 계산에 이용되므로, VAE처럼 Auto Encoder 학습시 latent feature들의 분포를 평균 0, 분산 1로 나타나게 할수도 있지 않을까?