Deep Learning Research Group
음성인식에서 가장 중요한 부분은 음향모델의 입력값 잡음제거에 있다. 잡음제거를 하기 위해선 음원의 위치를 추정해야 하는데 이를 통해 잡음까지 증폭되는 것을 방지하고 순수하게 인식의 대상인 사용자의 목소리를 정확히 인지할 수가 있다. 하지만 여기서 끝은 아니다. 사람의 음성은 시계열 패턴이다. 시계열 패턴이라는 것은 선후 관계가 있다는 말인데 음성은 그렇기 때문에 20ms의 구간별 분리를 진행하여 다음에 진행될 패턴을 […]
리뷰 논문 https://arxiv.org/pdf/1905.05055.pdf 상위 논문은 Object Detection의 변천사를 정리한 논문으로 이 논문 안에서 변천사 별 굵직했던 다양한 Detection 기법들의 논문에 대한 개괄적인 설명이 담겨 있다. Object Detection기법에 대해서 제대로 알기 위해서는 Recognition과 Object Detection의 차이에 대하여 구분할 줄 알아야 한다. Recognition은 Object를 구분하는 것이고, Object Detection은 Recognition보다 더 작은 범위로 Object의 존재 유무만 판단한다. 더 […]
arxiv, code 이 논문에서는 Video의 Representation을 어떻게 잘 학습할 것인가에 대한 연구를 수행하였습니다. Long-range한 시퀀스에서의 모션 정보를 어떻게 모델에 반영할 것인가에 대해 고민한 것으로 보입니다. k-nn 을 적용하여 다른 시점(frame)의 대응하는 후보(Correspondence Proposals)를 선정하고 네트워크는 이러한 대응 관계를 잘 표현하기 위해서 feature를 어떻게 표현해야 하는가에 대해 학습하게 됩니다. 논문을 보면서, 큰 틀에서는 NL Net (Non-local […]
사람의 Pose를 추정하는 문제 영역에 대해서 많은 연구가 이루어 지고 있습니다. 사람의 Pose는 이미지 내에서 특정 관절(예로 좌/우 어깨, 좌우 무릎, 허리, 손목 목, 팔꿈치 등) 등의 위치를 추정하는 것으로 2D 좌표에서 3D 좌표를 찾아내거나, 기존의 Top-Down 방식에서 Bottom-up 방식으로의 기술이 발전되고 있습니다. Top-down: 영상에서 사람을 Detection한 후, Bounding box 내부에서 포즈를 추정하는 방식으로, 별도의 […]