Abstract 첫번째로 High-demensional 센서 인풋을 사용하여 RL을 학습하는데 성공하였습니다. CNN과 변형된 Q-learing을 사용하였습니다. 입력값은 raw pixels, 출력값은 미래 보상을 추정하는 Value function 입니다. 2600개의 아타리게임을 별도의 조절없이 적용하였으며, 이중 6개는 이전보다 뛰어났으며 3개는 전문가들을 뛰어 넘었습니다. Introduction Agents를 시각 혹은 음성 같은 High-deminsinal 센서 입력을 직접 입력받아 agents를 학습 시키는 것은 RL의 오랜과제중 하나 였습니다. […]