OpenAI에서 2017년 발표한 본 논문에서는 Qlearning과 Policy Gradients와 같은 MDP 기반 RL 기법의 대안으로 블랙박스 최적화 알고리즘의 클래스인 Evolution Strategies (ES)의 사용을 탐구한다. Evolution Strategies– Evolution Strategies (ES)는 자연 진화에 영감을 받은 heuristic 검색 절차인 블랙 박스 최적화 알고리즘 [Rechenberg and Eigen, 1973, Schwefel, 1977]의 클래스– 모든 반복( “세대”)에서 매개 변수 벡터의 모집단( “유전형”)이 교란( […]