Author: Jee Hyun Paik

GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION

Read more

One Stage Detectors(SSD, RETINANET, NAS-FPN, EFFI-DET)

Read more

Albert a light bert

Read more

Temporal Relational Ranking for Stock Prediction

Read more

Proximal Policy Optimization Algorithms

참고자료 : https://www.youtube.com/watch?v=L-QYXtJmXrc http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Read more

Asynchronous Methods for Deep reinforcement Learning

이번것은 엄청 실용적이고, 이해하기도 쉬운데, 성능도 잡은 논문 https://docs.google.com/presentation/d/1rCkMg7eslTOM3TJxAS6g6Iyqk1Spe0AxZmqJDTAZcuw/edit?usp=sharing 출저 : 팡요랩

Read more

Trust Region Policy Optimization

완전히 어려운 수학적 베이스의 이론적인 논문 이제 시작합니다. https://docs.google.com/presentation/d/1-HM5f0vGbXYLxN3k85BxZiteCUsrL2VsPGS9KY18sxk/edit?usp=sharing 출처 : youtube 팡요랩

Read more

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING (DDPG)

AbstractDQN을 연속 action domain에 적용했음. Deterministic policy gradient를 연속공간에서 사용할수 있는 actor-critic, model-free 알고리즘을 개발했음. 20여개의 물리 태스크에서(카트폴, 스윙 등) 잘 동작함. Policy를 찾는 알고리즘이고 역시 raw input 사용해서 end to end로 policy를 직접 학습한다 IntroductionDQN으로 잘했는데, DQN은 높은 차원의 탐색 Observation spaces를 고작 여러개의 low demensinal action space로 바꾸는것 밖에 하지 못함. 각종 물리 […]

Read more

2019 Naver ai colloquium

1. No, That’s Not My Feedback, TV Show Recommendation Using Watchable Interval IEEE 2019 accept Recommennder System의 문제 : 추천해 줄 Item이 너무 많음 추천 알고리즘 종류 Content Collaborative filltering(논문은 여기서) Target Hybrid ML Base CF?(Nexflix 우승 알고리즘) rating table의 빈칸을 채우기위해 Matrix factorization을 통해 rating table을 근사함. 기존 Sota는 알고리즘은 Watchable Interval을 고려 안함. […]

Read more

Playing Atari with Deep Reinforcement Learning

Abstract 첫번째로 High-demensional 센서 인풋을 사용하여 RL을 학습하는데 성공하였습니다. CNN과 변형된 Q-learing을 사용하였습니다. 입력값은 raw pixels, 출력값은 미래 보상을 추정하는 Value function 입니다. 2600개의 아타리게임을 별도의 조절없이 적용하였으며, 이중 6개는 이전보다 뛰어났으며 3개는 전문가들을 뛰어 넘었습니다. Introduction Agents를 시각 혹은 음성 같은 High-deminsinal 센서 입력을 직접 입력받아 agents를 학습 시키는 것은 RL의 오랜과제중 하나 였습니다. […]

Read more