

OpenAI에서 2017년 발표한 본 논문에서는 Qlearning과 Policy Gradients와 같은 MDP 기반 RL 기법의 대안으로 블랙박스 최적화 알고리즘의 클래스인 Evolution Strategies (ES)의 사용을 탐구한다.
Evolution Strategies
– Evolution Strategies (ES)는 자연 진화에 영감을 받은 heuristic 검색 절차인 블랙 박스 최적화 알고리즘 [Rechenberg and Eigen, 1973, Schwefel, 1977]의 클래스
– 모든 반복( “세대”)에서 매개 변수 벡터의 모집단( “유전형”)이 교란( “변이”)되고 객관적 기능 값( “적합”)이 평가 됨.
– 가장 높은 점수를 받은 파라미터 벡터는 다음 세대를 위해 모집단을 형성하기 위해 재조합되며, 이 절차는 목표가 완전히 최적화될 때까지 반복
아래에서 녹색 점은 각 세대의 분포 평균을 나타내며 파란색 점은 샘플링된 솔루션이며 빨간색 점은 알고리즘에 의해 지금까지 발견된 최고의 솔루션

– ES 중 가장 유명한 알고리즘은 the covariance matrix adaptation evolution strategy [CMA-ES; Hansen and Ostermeier, 2001]. CMA-ES는 낮은 차원에서 중간 차원으로 최적화 문제를 해결하는데 매우 성공적이었다.

본 연구에서 사용하는 ES의 버전은 자연 진화 전략(NES)의 부류에 속한다.(Wierstra et al., 2008, 2014, Yi et al., 2009, Sun et al., 2009, Glasmachers et al., 2010a,b, Schaul et al.,2011] Sehnke et al. [2010].

– σ 는 고정되어 있고 μ 파라미터만 각 세대마다 업데이트하게 단순화.
– 여러 worker들 간에 병렬 계산에 적합한 업데이트 규칙을 수정하는 것을 제안
* 업데이트 규칙에서 고정된 시드를 사용하여 난수의 큰 좌표를 미리 계산
* worker는 시간이 지남에 따라 다른 모든 worker의 매개 변수를 재현할 수 있으며, 각 worker는 다른 모든 worker에 최종 적합도 결과인 단일 숫자만 전달하면 된다.
* 세대별 업데이트 시 전체 솔루션 벡터를 백만번 전송하는 것은 불가능 하지만 최종 적합도 결과만 전송하는 것은 가능
* 아마존 EC2에서 1440개의 worker를 사용해서 MoJoCo 휴머노이드 보행 작업을 10분만에 해결함.

진화 전략은 효과적인 시간 단계 T가 길고, 행동은 오래 지속되는 효과를 가지며, 좋은 가치 함수 추정치가 없는 경우 매력적인 선택이다.



Conclusion
– Atari와 MuJoCo에 대한 실험은 몇 가지 매력적인 특징을 가진 실행 가능한 옵션임을 보여줌.
– 가장 중요한 것은 ES가 매우 병렬화되어 더 많은 병렬 worker에게 확장함으로써 데이터 효율성을 보완할 수 있다는 것
– 향후 연구에서는 MDP 기반 강화 학습이 덜 적합한 문제, 즉 장시간 지평선과 복잡한 보상 구조에 대한 문제에 진화 전략을 적용할 계획
– ES의 기울기가 없는 성질을 충분히 이용하기 위해 ES와 빠른 저 정밀도 신경망 구현을 결합하는 것을 검토할 계획
REFERENCE MATERIALS
– paper Path :
https://arxiv.org/abs/1703.03864
– 참고 자료 :
https://openai.com/blog/evolution-strategies/