cpnet: Learning video representations from correspondence proposals

arxiv, code

이 논문에서는 Video의 Representation을 어떻게 잘 학습할 것인가에 대한 연구를 수행하였습니다. Long-range한 시퀀스에서의 모션 정보를 어떻게 모델에 반영할 것인가에 대해 고민한 것으로 보입니다.

k-nn 을 적용하여 다른 시점(frame)의 대응하는 후보(Correspondence Proposals)를 선정하고 네트워크는 이러한 대응 관계를 잘 표현하기 위해서 feature를 어떻게 표현해야 하는가에 대해 학습하게 됩니다.

논문을 보면서, 큰 틀에서는 NL Net (Non-local neural network)에서의 컨셉과 유사하다는 느낌이 들었지만 k-nn이 반영됨으로써 시간의 흐름에 따른 대응하는 객체의 위치와 형태가 변화하는 것에 대한 positional한 정보가 더 잘 반영되는 효과가 있었던 것 같습니다.

자세한 내용은 첨부된 파일에서 설명되어 있습니다.

Leave a Reply

Your email address will not be published. Required fields are marked *