MUSIC (MUtual Information State Intrinsic Control)

reward 없이 unsupervised한 방법론으로 Reinforcement Learning을 할 수 있을까?

논문 링크 : https://arxiv.org/abs/2103.08107

코드 링크 : https://github.com/ruizhaogit/music

강화 학습은 많은 도전 과제에서 매우 성공적인 것으로 나타났습니다. 하지만 이런 성공은 대부분 잘 설계된 보상에 크게 의존할 수 밖에 없는 구조적 한계를 가지고 있습니다. 이에 intrinsically motivated RL은 intrinsic reward를 정의하여 이런 Constraints를 제거하려고 시도합니다. 심리학의 자의식 개념에 자극을 받아 agent가 자신을 구성하는 것이 무엇인지 알고 있다는 자연스러운 가정을 통해 agent가 환경을 최대한 통제할 수 있도록 장려하는 새로운 본질적인 방향으로 접근해 보려 합나다. 이 논문에서는 reward을 현재 agent 정책에 따라 agent 상태와 surrounding 상태 간의 Mutual Information으로 수학적으로 공식화합니다. 이 새로운 intrinsic 동기를 통해 우리는 task reward을 사용하지 않고 처음으로 픽 앤 플레이스 task을 완료할 수 있는 것을 포함하여 이전 방법을 능가할 수 있습니다. 실험 결과를 보여주는 비디오는 https://youtu.be/AUCwc9RThpk 에서 볼 수 있습니다.

1. Introduction

강화 학습(RL)을 통해 agent는 환경과 상호 작용하고 환경에서 제공하는 일부 reward 기능을 최적화하여 의미 있는 skills을 학습할 수 있습니다. RL은 다양한 task에서 인상적인 성과를 달성했지만(Silver et al., 2017; Mnih et al., 2015; Berner et al., 2019), 로봇이 배우기를 원하는 모든 task에 대해 밀도 높은 reward을 제공하는 것은 매우 비싼 비용이 듭니다. 내적 동기 강화 학습은 agent가 호기심(Schmidhuber, 1991; Pathak et al., 2017; Burda et al., 2018), 다양성(Gregor et al., 2016; Haarnoja et al., 2018; Eysenbach et al., 2019) 및 권한 부여(Klyubin et al., 2005; Salge et al., 2014; Mohamed & Rezende, 2015). 이러한 내부 동기는 agent가 환경과 상호 작용할 때 인간이 설계한 reward 없이 즉석에서 계산할 수 있습니다. 이 논문에서는 내부적으로 동기가 부여된 agent로부터 유용한 “기술”을 추출하여 나중에 downstream task을 해결하는 데 사용할 수 있기 위해 서술되었습니다.

RL의 이전 task 대부분은 환경을 MDP(Markov Decision Process)로 모델링합니다. MDP에서 우리는 agent 자체를 surrounding으로부터 명시적으로 구분하지 않고 single state vector를 사용하여 전체 환경의 현재 상태를 설명합니다. 그러나 물리적 세계에서는 지능형 agent와 그 surrounding 사이에 명확한 경계가 있습니다. 예를 들자면 모든 포유류의 피부와 같다고 보면 됩니다. agent와 그 surrounding의 분리는 기계 로봇과 같은 대부분의 인공 agent에도 적용됩니다. 이러한 agent-surrounding 분리는 심리학에서 자의식이라는 개념 아래 오랫동안 연구되어 왔다. 자의식이란 주체가 자신이 자각의 대상이라는 것을 아는 것을 의미하며(Smith, 2020) agent 자체를 다른 모든 것과 효과적으로 다르게 취급합니다. Gallup(1970)은 자의식이 침팬지, 돌고래, 일부 코끼리 및 인간 유아에게 널리 존재한다는 것을 보여주었습니다. agent와 그 surrounding을 동일하게 강조하기 위해 이 문서에서는 이러한 분리를 agent-surrounding 분리라고 명명합니다. 널리 채택된 MDP 공식은 자연 agent-surrounding 분리를 무시하지만 단순히 agent 상태와 surrounding 상태를 single state vector로 함께 쌓았습니다. 이 공식은 수학적으로 간결하지만 지나치게 단순하고 결과적으로 학습을 더 어렵게 만든다고 주장합니다.

이러한 agent surrounding 분리를 염두에 두고 훨씬 더 효율적인 내재 동기 RL 알고리즘을 설계할 수 있습니다. 우리는 결과 agent 상태가 surrounding 상태와 높은 Mutual Information(MI)를 가져야 하는 행동을 수행하도록 agent를 장려함으로써 새로운 intrinsic 동기를 제안합니다. 직관적으로 MI가 높을수록 agent가 surrounding 환경을 더 많이 제어할 수 있습니다. 제안된 방법을 “MUtual information-based State Intrinsic Control” 또는 줄여서 MUSIC이라고 합니다. 제안된 MUSIC 방법을 사용하면 task reward 없이 물건을 집는 방법을 배우는 것과 같이 감독되지 않은 방식으로 많은 복잡한 기술을 배울 수 있습니다. 또한 조밀한 MUSIC 내재 reward로 희소 reward을 증대하여 학습 과정을 가속화할 수 있습니다.

이 논문의 contribution은 아래 세 가지를 기반으로 합니다. 
첫째, 자연적 agent-surrounding 분리 가정을 기반으로 agent가 surrounding 환경을 최대한 제어하도록 권장하는 새로운 intrinsic 동기(MUSIC)를 제안합니다.
둘째, MUSIC 내재 reward을 쉽게 최적화할 수 있는 확장 가능한 목표를 제안합니다. 
마지막으로 MUSIC의 우수한 성능을 여러 환경에서 다른 경쟁 고유 reward과 비교하여 보여줍니다. 
주목할 만한 점은 이 논문의 방법을 사용하면 처음으로 pick and place task는 task reward 없이 해결될 수 있습니다.

2. PRELIMINARIES

환경의 경우 그림 2와 같이 푸시, 슬라이드, 픽 앤 플레이스 및 탐색을 포함한 4가지 로봇 task을 고려합니다.
manipulation task의 목표target ball을 원하는 위치로 이동하는 것입니다.
navigation task의 목표target ball로 이동하는 것입니다.
다음에서는 몇 가지 용어를 정의합니다.

2.1 AGENT STATE, SURROUNDING STATE, AND REINFORCEMENT LEARNING SETTINGS
본 논문에서 agent 상태 Sa는 말 그대로 agent의 상태 변수를 의미한다. surrounding 상태 Ss는 agent의 surrounding을 설명하는 상태 변수, 예를 들어 객체의 상태 변수를 의미합니다. 다중 목표 환경의 경우 목표를 상태로 표시하고 목표 변수를 g로 표시하는 이전 task(Andrychowicz et al., 2017; Plappert et al., 2018)과 동일한 가정을 사용합니다. 예를 들어, 조작 task에서 목표는 에피소드에서 개체의 특정 원하는 위치입니다. 이러한 원하는 위치, 즉 목표는 환경에서 샘플링됩니다.

agent 상태와 surrounding 상태의 구분은 1절에서 소개한 agent-surrounding 분리 개념에 의해 자연스럽게 정의된다. 생물학적 관점에서 인간은 손이나 다리와 같은 자신의 부분을 환경과 자연스럽게 구별할 수 있다. 이와 유사하게 로봇 시스템을 설계할 때 agent 상태와 surrounding 상태를 쉽게 알 수 있습니다. 이 논문에서 우리는 확률 변수를 나타내기 위해 S와 같은 대문자를 사용하고 확률 변수의 값을 나타내기 위해 s와 같은 소문자를 사용합니다.

상태 S 세트, 일련의 동작 A, 초기 상태 분포 p(s0), 전환 확률 p(st+1 | st, at), reward 함수 r: S를 포함하여 세상이 완전히 관찰 가능하다고 가정합니다. × A → R, discount factor γ ∈ [0, 1]. 이러한 구성 요소는 튜플로 표시되는 Markov Decision Process(S, A, p, r, γ)를 공식화합니다. 일련의 agent 상태와 surrounding 상태를 포함하는 궤적을 나타내기 위해 τ를 사용합니다. 확률 변수는 T 로 표시됩니다.

3. METHOD
이 논문에서는 감독 없이 관찰과 행동을 사용하여 순전히 surrounding을 제어하는 agent 학습에 중점을 둡니다. agent가 surrounding을 제어할 때 agent 상태와 surrounding 상태 사이에 높은 MI가 있다는 아이디어에 동기를 부여하여 이 논문은 학습 정책 πθ(at | st)의 하나로 외부 감독 없이 학습하는 문제를 공식화합니다. 매개변수 θ를 사용하여 고유한 MI reward을 최대화합니다. r = I(Sa;Ss). 이 섹션에서는 우리의 방법인 MUSIC(상호 정보 기반 상태 고유 제어)에 대해 공식적으로 설명합니다.

3.1 MUTUAL INFORMATION REWARD FUNCTION
이 프레임워크는 surrounding 상태와 agent 상태 간의 MI를 최대화하여 정책과 본질적인 reward 기능을 동시에 학습합니다. 수학적으로 surrounding 상태 랜덤 변수 Ss와 agent 상태 랜덤 변수 Sa 사이의 MI는 다음과 같이 표현됩니다.

joint probability distribution
marginal distributions Kullback-Leibler(KL) divergence의 곱

3.2 EFFECTIVELY COMPUTING THE MUTUAL INFORMATION REWARD IN PRACTICE

주어진 시간 단계에서 각 전환에 대한 reward을 해당 시간 단계에서 인접 상태 쌍의 상호 정보로 정의합니다(방정식 (4) 오른쪽(RHS) 참조). 그러나 실제로는 상태 쌍을 사용하여 MI 추정기를 훈련시키는 것이 그다지 효율적이지 않다는 것을 알았습니다. 이 문제를 해결하기 위해 동일한 궤적의 모든 상태를 일괄적으로 사용하여 MI 추정기를 훈련합니다(식 (4) 왼쪽(LHS) 참조). 더 많은 경험적 샘플이 분산을 줄여 학습을 가속화하는 데 도움이 되기 때문입니다. 보조정리 1에서는 식 (4) RHS와 식 (4) LHS 간의 단조 증가 관계를 증명합니다.

보다 구체적으로 reward을 계산하는 과정을 훈련 단계와 평가 단계의 두 단계로 나눕니다. 훈련 단계에서 우리는 전체 궤적의 많은 샘플을 사용하여 MI 추정기를 효율적으로 훈련합니다. MI 추정기 네트워크를 훈련하기 위해 먼저 재생 버퍼에서 궤적 τ를 무작위로 샘플링합니다. 그런 다음 경계 분포의 곱을 계산하는 데 사용된 상태 sat를 궤적 내에서 시간축 t를 따라 공동 분포에서 상태를 섞어서 샘플링합니다. 역전파를 사용하여 매개변수(φ)를 최적화하여 MI 하한을 최대화합니다(방정식 (4) LHS 참조).

MI reward을 평가하기 위해 전체 궤적을 사용하는 대신 한 쌍의 전이를 사용하여 전이 reward을 계산합니다(식(4) RHS 및 식(5) 참조). 전환에 대한 MI reward을 계산하기 위해 매번 reward은 전체 궤적 τ’의 작은 부분, 즉 r = Iφ(Ss;Sa | T ‘)에 대해 계산됩니다. 궤적 분수 τ’는 인접 상태 쌍 τ ‘ = {st , st+1 }로 정의되며 T ‘는 해당 확률 변수를 나타냅니다.

파생된 보조 정리 1은 두 가지 중요한 이점을 제공합니다. 첫째, 동일한 궤적의 모든 상태를 사용하여 MI 추정기를 효율적으로 훈련할 수 있습니다. 그리고 경험적 샘플의 큰 배치는 그라디언트의 분산을 줄입니다. 둘째, 관련 상태 쌍만으로 각 전환에 대한 MI reward을 추정할 수 있습니다. MI를 추정하는 이러한 방식을 통해 전환 수준에서 보다 정확하게 reward을 할당할 수 있습니다.

task reward이 있는 MUSIC 변형: 도입된 MUSIC 방법은 “MUSIC-u“로 표시되는 감독되지 않은 강화 학습 접근 방식입니다. 여기서 “-u”는 감독되지 않은 학습을 나타냅니다. 우리는 MUSIC을 사용하여 학습을 가속화하는 세 가지 방법을 제안합니다. 

첫 번째 방법은 MUSIC-u 사전 훈련된 정책을 매개변수 초기화로 사용한 다음 task reward으로 에이전트를 미세 조정하는 것입니다. 우리는 이 변형을 “MUSIC-f“로 표시합니다. 여기서 “-f”는 미세 조정을 나타냅니다. 

두 번째 변형은 에이전트가 더 효율적으로 탐색할 수 있도록 MI 고유 reward을 사용하는 것입니다. 여기서 MIreward과 과제reward을 합산한다. 이 방법의 이름을 “MUSIC-r”로 지정합니다. 여기서 “-r”은 reward을 나타냅니다. 

세 번째 접근 방식은 MUSIC의 MI 수량을 사용하여 재생 궤도의 우선 순위를 지정하는 것입니다. 접근 방식은 TD 오류 기반 우선순위 경험 재생(PER)과 유사합니다(Schaul et al., 2016). 유일한 차이점은 샘플링 우선 순위로 TD 오류 대신 추정된 MI를 사용한다는 것입니다. 이 방법의 이름을 “MUSIC-p“로 지정합니다. 여기서 “-p”는 우선 순위 지정을 나타냅니다.

Skill Discovery with MUSIC and DIAYN(https://arxiv.org/abs/1802.06070): unsupervised RL에 대한 관련 연구 중 하나인 DAI-AYN(Eysenbach et al., 2019)은 잠재적 변수 Z에 의해 인덱싱된 다양한 식별 가능한 기술을 수학적으로 학습하는 정보 이론적 목표 FDIAYN을 소개합니다. FDIAYN = I(S;Z) + H(A | S,Z). 목표 FDIAYN에서 첫 번째 항인 I(S;Z)는 기술 판별자를 통해 구현되며, 이는 원래 목표의 변동 하한 역할을 합니다(Barber & Agakov, 2003; Eysenbach et al., 2019). 스킬 판별기는 상태 S가 주어졌을 때 스킬 옵션 Z를 예측할 수 있는 경우 에이전트에게 높은 reward을 할당합니다. 여기에서 전체 상태 S를 주변 상태 Ss로 대체하여 에이전트가 제어 기술을 배우도록 권장합니다. DIAYN과 MUSIC은 다음과 같이 결합될 수 있습니다.FMUSIC+DIAYN =I(Sa;Ss)+I(Ss;Z)+H(A|S,Z) et al., 2019) 감독되지 않은 방식으로.

DISCERN과의 비교 및 조합: 또 다른 관련 task은 DISCERN(Discriminative Embedding Reward Networks)(Warde-Farley et al., 2019)으로, 목표는 상태 S와 목표 G, 즉 I(S) 간의 MI를 최대화하는 것입니다. ; G). MUSIC의 목표는 에이전트 상태 Sa와 주변 상태 Ss, 즉 I(Sa;Ss) 간의 MI를 최대화하는 것입니다. 직관적으로 DISCERN은 각 에피소드에서 특정 목표에 도달하려고 시도하는 반면 우리의 방법은 주변 상태를 다른 값으로 조작하려고 시도합니다. MUSIC과 DISCERN은 FMUSIC+DISCERN = I(Sa; Ss) + I(S; G)로 결합될 수 있습니다. 선택적으로 전체 상태 S를 S로 교체할 수 있습니다. 경험적으로 S보다 성능이 더 좋기 때문입니다. 이 조합을 통해 MUSIC은 DISCERN이 차별적 목표를 학습하도록 돕습니다.

4. EXPERIMENTS
환경: 제안된 방법을 평가하기 위해 로봇 조작 task과 탐색 task을 사용했습니다(그림 2 참조)(Brockman et al., 2016; Plappert et al., 2018). 탐색 task은 Gazebo 시뮬레이터를 기반으로 합니다. 네비게이션 태스크에서 에이전트가 공에 도달하면 태스크 reward은 1이고, 그렇지 않으면 태스크 reward은 0입니다. 여기서 에이전트 상태는 로봇 카 위치이고 주변 상태는 빨간 공입니다. 푸시, 픽 앤 플레이스, 슬라이드를 포함한 조작 환경에는 미리 정의된 목표 세트가 있으며, 이는 빨간색 점으로 표시됩니다. RL 에이전트의 task은 개체를 목표 위치로 조작하는 것입니다. 조작 task에서 에이전트 상태는 그리퍼 위치이고 주변 상태는 개체 위치입니다.

실험: 첫째, 순수하게 intrinsic reward, 즉 MUSIC-u로 학습된 제어 행동을 분석합니다.
둘째, 사전 훈련된 모델을 task reward과 함께 성능 향상에 사용할 수 있음을 보여줍니다. 흥미롭게도 사전 훈련된 MI 추정기가 다른 task 간에 전송될 수 있으며 여전히 성능을 향상시킬 수 있음을 보여줍니다. MUSIC을 DDPG(Lillicrap et al., 2016), SAC(Haarnoja et al., 2018), DIAYN(Eysenbach et al., 2019), DISCERN(Warde-Farley et al., 2019)을 포함한 다른 방법과 비교했습니다. PER(Schaul et al., 2016), VIME(Houthooft et al., 2016), ICM(Pathak et al., 2017) 및 Empowerment(Mohamed & Rezende, 2015). 셋째, MUSIC reward이 궤적에 걸쳐 어떻게 분배되는지에 대한 통찰력을 보여줍니다. 실험 세부 정보는 부록 G에 나와 있습니다. 우리 코드는 https://github.com/ruizhaogit/musichttps://github.com/ruizhaogit/alf에서 사용할 수 있습니다.

질문 1. MUSIC-u는 어떤 행동을 배우나요?
로봇 조작 task에서 MUSIC-u를 테스트했습니다. 훈련 중 에이전트는 고유한 MUSIC reward만 받습니다. 세 가지 환경 모두에서 물체에 도달하는 행동이 나타납니다. 푸시 환경에서 에이전트는 테이블에서 개체를 푸시하는 방법을 배웁니다. 슬라이드 환경에서 에이전트는 개체를 다른 방향으로 슬라이드하는 방법을 배웁니다. 아마도 놀랍게도 픽 앤 플레이스 환경에서 에이전트는 task reward 없이 테이블에서 물건을 집는 방법을 배웁니다. 모든 관찰은 보충 비디오에 표시됩니다.

질문 2. MUSIC-u는 Empowerment 또는 ICM과 어떻게 비교됩니까?

탐색 task에서 방법을 테스트했습니다. 우리는 우리의 방법을 PPO(Schulman et al., 2017)와 결합하고 성능을 ICM(Pathak et al., 2017) 및 Empowerment(Mo-hamed & Rezende, 2015).
훈련하는 동안 우리는 MUSIC, ICM 또는 Empower-erment와 같은 본질적인 reward 중 하나만을 사용하여 에이전트를 훈련했습니다. 그런 다음, 우리는 평가 메트릭으로 평균 task reward. 실험 결과는 그림 3(왼쪽)에 나와 있습니다. y축은 평균 task reward을 나타내고 x축은 훈련 에포크를 나타냅니다.
그림 3(오른쪽)은 MUSIC reward 신호 I(Sa, Ss)가 Empowerment reward 신호 I(A, Ss)에 비해 상대적으로 강함을 보여줍니다. 결과적으로 높은 MI reward은 에이전트가 더 높은 MI로 더 많은 상태를 탐색하도록 권장합니다. Empowerment와 MUSIC 간의 이론적 연결은 부록 B에 나와 있습니다. 1:28부터 시작하는 비디오는 학습된 탐색 동작을 보여줍니다.

질문 3. MUSIC은 DIAYN과 어떻게 다른가요?

픽앤플레이스 환경에서 MUSIC, DIAYN 및 MUSIC+DIAYN을 비교했습니다. MUSIC+DIAYN 구현을 위해 먼저 MUSIC만으로 에이전트를 사전 훈련시킨 다음 DIAYN으로 정책을 미세 조정합니다. 사전 훈련 후 MUSIC 훈련을 받은 에이전트는 물체에 도달하기, 밀기, 밀기, 줍기 등의 조작 동작을 학습합니다. MUSIC에 비해 DIAYN 훈련을 받은 에이전트는 물건을 집는 법을 거의 배우지 않습니다. 주로 그리퍼로 물체를 밀거나 튕깁니다. 그러나 결합된 모델인 MUSIC+DIAYN은 스킬 옵션에 따라 물체를 집고 다른 위치로 이동하는 방법을 학습합니다. 이러한 관찰은 0:46부터 비디오에 표시됩니다. 이 실험을 통해 MUSIC이 에이전트가 DIAYN 목표를 학습하는 데 도움이 됨을 알 수 있습니다. DIAYN 혼자는 성공하지 못합니다. DIAYN은 처음에는 보기 드문 물체에 닿을 때까지 기술을 배우기 시작하지 않기 때문입니다. 이는 스킬 판별기가 스킬을 다르게 만들기만 하기 때문에 발생합니다.

질문 4. MUSIC+DISCERN은 DISCERN과 어떻게 다른가요?

MUSIC과 DISCERN의 조합은 에이전트가 MUSIC을 통해 개체를 제어하는 방법을 학습한 다음 DISCERN을 통해 개체를 대상 위치로 이동하도록 권장합니다.
표 1은 DISCERN+MUSIC이 DISCERN을 훨씬 능가함을 보여줍니다.
MUSIC이 상태 제어를 더 강조하고 에이전트가 개체와 상호 작용하도록 가르치기 때문입니다. 이후 DISCERN은 에이전트에게 각 에피소드의 목표 위치로 개체를 이동하도록 가르칩니다.

질문 5. 학습을 가속화하기 위해 음악을 어떻게 사용할 수 있습니까?

MUSIC-f, MUSIC-p 및 MUSIC-r을 포함하여 MUSIC을 사용하여 task reward 외에도 학습을 가속화하는 세 가지 방법을 조사했습니다. 이 세 가지 변형을 DDPG 및 SAC와 결합하고 다중 목표 로봇 task에서 테스트했습니다. 그림 4에서 MUSIC-f, MUSIC-p 및 MUSIC-r을 포함한 이 세 가지 방법 모두 task reward이 있는 상태에서 학습을 가속화한다는 것을 알 수 있습니다. 이러한 변종 중에서 MUSIC-r이 전반적으로 가장 개선되었습니다. 푸시 및 픽앤플레이스 task에서 MUSIC은 에이전트가 짧은 시간에 학습할 수 있도록 합니다. 슬라이드 task에서 MUSIC-r은 성능도 상당한 차이로 향상시킵니다.
우리는 또한 우리의 방법을 가장 가까운 관련 방법과 비교합니다. 보다 구체적으로 MUSIC-f를 DIAYN을 사용한 매개변수 초기화와 비교합니다(Eysenbach et al., 2019). 우선 순위 지정을 위해 TD 오류를 사용하는 우선 순위 지정 경험 재생(PER)에 대한 MUSIC-p(Schaul et al., 2016); 및 MUSIC-r 대 VIME(Variational Information Maximizing Exploration)(Houthooft et al., 2016). 실험 결과는 그림 5에 나와 있습니다. 그림 5(첫 번째 열)에서 MUSIC-f는 에이전트가 학습할 수 있도록 하는 반면 DIAYN은 그렇지 않음을 알 수 있습니다. 그림 5의 두 번째 열에서 MUSIC-r은 VIME보다 성능이 좋습니다. 이 결과는 상태 간 MI가 학습을 가속화하는 데 중요한 양임을 나타냅니다. MI 고유 reward은 VIME에 비해 성능을 크게 향상시킵니다. 이 관찰은 그림 5(세 번째 열)에서 볼 수 있듯이 MUSIC-p 및 PER의 실험 결과와 일치합니다. 여기서 MI 기반 우선 순위 지정 프레임워크는 TD 오류 기반 접근 방식인 PER보다 더 나은 성능을 보입니다. 모든 task에서 MUSIC을 사용하면 에이전트가 벤치마크 task을 더 빨리 학습할 수 있습니다.

질문 6. 학습된 MI 추정기를 새로운 task으로 옮길 수 있습니까?

사전 훈련된 MI 추정기가 새로운 task으로 이전되고 여전히 성능을 향상시킬 수 있다면 유익할 것입니다(Pan et al., 2010; Bengio, 2012). 이 아이디어를 검증하기 위해 사전 훈련된 MI 추정기를 픽 앤 플레이스 환경에서 푸시 및 슬라이드 환경에 각각 직접 적용하고 에이전트를 처음부터 훈련했습니다.
이 전송된 방법을 “MUSIC-t”로 표시합니다. 여기서 “-t”는 전송을 나타냅니다. 해당 환경에서 훈련된 MUSIC reward 함수는 “MUSIC-r”로 표시됩니다. DDPG, MUSIC-r 및 MUSIC-t의 성능을 비교했습니다. 결과는 그림 6에 나와 있으며, 전송된 MUSIC이 여전히 성능을 크게 개선했음을 보여줍니다. 또한 예상대로 MUSIC-r이 MUSIC-t보다 더 나은 성능을 보였습니다. MI 추정기는 task 불가지론(Finn et al., 2017) 방식으로 훈련되고 나중에 보이지 않는 task에서 활용될 수 있음을 알 수 있습니다.

질문 7. MUSIC은 궤적에 따라 reward을 어떻게 분배합니까?

MUSIC이 작동하는 이유를 이해하기 위해 학습된 MUSIC-u reward을 그림 7에 시각화했습니다. MI reward은 로봇이 테이블에서 큐브를 빠르게 줍는 4번째 프레임과 5번째 프레임 사이에서 피크를 관찰할 수 있습니다. 피크 reward 값 주변에서 중간 범위 reward 값은 물체와 그리퍼의 상대적으로 느린 움직임에 해당합니다(3번째, 9번째, 10번째 프레임 참조).
그리퍼와 큐브 사이에 접촉이 없을 때(첫 번째 및 두 번째 프레임 참조), 그리퍼가 물체를 계속 잡고 있을 때(6~8번째 프레임 참조) 고유 reward은 거의 0으로 유지됩니다. 이 예에서 MUSIC은 주변 상태가 에이전트 상태와 상관 관계가 있을 때 긍정적인 intrinsic reward을 분배한다는 것을 알 수 있습니다.

질문 8. MUSIC reward은 reward 형성과 어떻게 비교됩니까?
여기에서 우리는 MUSIC과 reward 형성을 비교하고 MUSIC이 reward 형성으로 쉽게 대체될 수 없음을 보여주고자 합니다. 로봇의 그리퍼와 물체 사이의 거리인 간단한 L2-norm reward 형성을 고려합니다. 이 수task reward으로 에이전트는 그리퍼를 물체에 가깝게 움직이는 법을 배우지만 물체는 거의 만지지 않습니다. 그러나 MUSIC reward으로 에이전트는 대상에 도달하여 다른 위치로 이동합니다. MUSIC은 그리퍼와 물체 사이의 L2-norm 거리 reward, 에이전트와 물체 사이의 접촉 reward, 물체와 목표 위치 사이의 L2-norm 거리 reward 등 많은 수task reward을 자동으로 유도합니다. 에이전트와 주변 상태 간의 상호 정보를 극대화하는 기타 reward. 이러한 관점에서 MUSIC은 에이전트가 이 범주에 속하는 특정 다운스트림 task을 학습하는 데 도움이 되는 상태 제어 task에 대한 메타 reward으로 간주될 수 있습니다.

질문 9. MUSIC은 에이전트가 주변에 여러 물체가 있을 때 학습하는 데 도움이 됩니까?
객체가 여러 개인 경우 에이전트는 MUSIC을 통해 주변 객체와 에이전트 간의 MI를 최대화하도록 훈련됩니다. 바닥에 빨간색 공과 파란색 공이 있는 경우 MUSIC을 사용하여 에이전트는 두 공에 도달하는 방법을 배우고 때로는 한 공을 사용하여 다른 공을 치는 방법도 배웁니다. 결과는 1분 56초부터 보충 영상에 나와 있습니다.

요약 및 향후 task: 주변 상태와 에이전트 상태의 다른 조합으로 에이전트가 다른 제어 동작을 학습할 수 있음을 알 수 있습니다. 우리는 에이전트 상태와 주변 상태의 다양한 조합에 해당하는 기술 조건형 정책을 훈련할 수 있으며 나중에 당면한 task에 대해 사전 훈련된 정책을 사용할 수 있습니다(부록 F “계층적 강화 학습을 위한 기술 검색” 참조). 어떤 경우에는 명확한 에이전트 주변 분리가 없거나 기존 분리가 차선책일 때 상태를 자동으로 나누고 선택하는 새로운 방법이 필요합니다. 또 다른 향후 task 방향은 현재 방법을 부분적으로 관찰된 사례로 확장하는 것입니다. 예를 들어 MUSIC를 상태 추정 방법과 결합하고 MUSIC를 부분적으로 관찰된 설정으로 확장할 수 있습니다.

위 논문에 대해 코드를 살펴보도록 하겠다.
코드를 살펴보려면 기본적으로 2가지 개념에 대해 잡고 가야 한다.
첫번째는 MPI (Message Passing Interface)라는 개념이다.
Open MPI 이 패키지는 오픈소스로 공개된 고성능 메시지 전달 인터페이스로 분산 병렬 컴퓨팅에 사용되는 API이다.
위 논문의 구현코드에는 병렬처리를 하기 위해서 Python에서 제공하는 라이브러리 mpi4py를 사용하였다.
mpi4py란?
참고 링크 : https://blog.naver.com/PostView.naver?blogId=sw4r&logNo=222314867436

두번째로는 her이란 개념이다.
HER(Hindsight Experience Replay) 용어 그대로 해석하자면 Experience를 통해 뒤를 돌아보고 Replay한다는 것이다.
참고링크 : https://ropiens.tistory.com/136

위 두 가지 개념을 알아야 해당 코드에 대한 이해가 쉽다.

Tagged , ,

Leave a Reply

Your email address will not be published. Required fields are marked *