reward 없이 unsupervised한 방법론으로 Reinforcement Learning을 할 수 있을까? 논문 링크 : https://arxiv.org/abs/2103.08107 코드 링크 : https://github.com/ruizhaogit/music 강화 학습은 많은 도전 과제에서 매우 성공적인 것으로 나타났습니다. 하지만 이런 성공은 대부분 잘 설계된 보상에 크게 의존할 수 밖에 없는 구조적 한계를 가지고 있습니다. 이에 intrinsically motivated RL은 intrinsic reward를 정의하여 이런 Constraints를 제거하려고 시도합니다. 심리학의 자의식 […]
Markov Chain은 언어모델, 음성인식, 강화학습과 연관된 학습을 하다 보면 가장 근간이 된 사상이라고 생각이 든다. 그 이유는 바로 state와 transition probability란 것이 확률적 기반 학습을 진행할 때 가장 뿌리가 되는 부분이기 때문인 것 같다. Deterministic Policy와 Stochastic Policy이 모두 state에 대한 action을 기반을 설계되어 있고 이 action이라는 것은 state transition probability와 큰 연관성이 있다. state […]