AbstractDQN을 연속 action domain에 적용했음. Deterministic policy gradient를 연속공간에서 사용할수 있는 actor-critic, model-free 알고리즘을 개발했음. 20여개의 물리 태스크에서(카트폴, 스윙 등) 잘 동작함. Policy를 찾는 알고리즘이고 역시 raw input 사용해서 end to end로 policy를 직접 학습한다 IntroductionDQN으로 잘했는데, DQN은 높은 차원의 탐색 Observation spaces를 고작 여러개의 low demensinal action space로 바꾸는것 밖에 하지 못함. 각종 물리 […]
1. No, That’s Not My Feedback, TV Show Recommendation Using Watchable Interval IEEE 2019 accept Recommennder System의 문제 : 추천해 줄 Item이 너무 많음 추천 알고리즘 종류 Content Collaborative filltering(논문은 여기서) Target Hybrid ML Base CF?(Nexflix 우승 알고리즘) rating table의 빈칸을 채우기위해 Matrix factorization을 통해 rating table을 근사함. 기존 Sota는 알고리즘은 Watchable Interval을 고려 안함. […]