최적의 거래 실행을위한 Almgren-Chriss 프레임 워크의 확장을 배우는 강화 학습
초록 – Reinforcement Learning은 시장 microstructure의 요소를 사용하여 최적의 거래 실행을 위해 기존 분석 솔루션을 향상시키는 후보 machine learning technique로 탐구됩니다.
거래량, 일정 시간 및 이산 거래 기간을 감안할 때 목표는 실시간 실행 중 선호 / 불리한 조건과 관련하여 동적 인 일정한 볼륨 궤적을 적용하여 전체 거래 비용을 향상시키는 것입니다.
선형 모델 가격의 영향을받는 표준 Almgren-Chris 모델을 후보 기본 모델로 간주합니다.
이 모델은 도착 가격 벤치 마크 실행 알고리즘의 기초로서 판매 측 기관들 사이에서 인기가 있습니다.
시장 지배적 인 확산 및 볼륨 역학을 기반으로 볼륨 궤적을 수정하기 위해 Learning Agent를 교육함으로써 우리는 주식 샘플 및 데이터와 남아공 주식 시장에서의 무역 규모를 기반으로 기본 모델과 비교하여 평균 10.3 %까지 무역 후 implementation 부족분을 개선 할 수 있습니다.
I. INTRODUCTION
투자 시장 참여자들이 직면 한 중요한 문제는 소위 최적 청산 문제 즉, 최소 비용으로 주어진 블록을 가장 잘 거래하는 방법. 여기서 비용은 Perold의 구현 부족 ([21]), 즉 투자 결정이 내려지는 시점의 실제 거래 가격과 도착 가격 기준의 불리한 편차와 같이 해석 될 수 있습니다. 또는 비용은 특정 거래자의 실적을 평균 시장 거래자의 실적과 효과적으로 비교하면서 거래 기간 동안의 시장 가중 평균 거래 가격 (VWAP)과의 편차로 측정 할 수 있습니다. 각각의 경우에, 상인 / 집행 알고리즘이 당면한 주요 문제는 주문을 실행할 때 가격 영향과 기회 비용 간의 절충입니다.
여기서의 가격 영향은 주문서에서 가능한 수준의 유동성 공급을 흡수하는 대규모 무역 규모 (일시적 가격 영향)로 인한 불리한 가격 변동을 의미합니다. 시장 참여자가 거래되는 총 거래량을 감지하기 시작하면 주문 일치를 예측하기 위해 입찰가 / 하향 조정을 조정할 수 있습니다 (영구 가격 영향) [16]. 가격 영향을 피하기 위해 거래자는 장기간에 걸쳐 대규모 주문을 더 작은 하위 주문으로 분할 할 수 있습니다. 그러나 불리한 가격 (기회 비용)으로 집행되는 외생적인 시장 세력이있을 수 있습니다. 기관 투자가의 이러한 행동은 [9]에서 경험적으로 보여 졌는데, 대규모 투자 관리 회사의 전형적인 거래가 거의 항상 더 작은 거래로 분리되어 며칠 또는 며칠 동안 실행된다는 것을 관찰했다.
몇몇 저자는 확률 론적 동적 프로그래밍 솔루션에 대한 강한 편향과 함께 최적의 액체화 문제를 연구했다. 예제로 [7], [17], [26], [1]을 참조하십시오. 본 논문에서는 최적의 청산 문제에 기계 학습 기법을 적용하는 것을 고려한다. 특히 우리는 Reinforcement Learning 기법을 사용하여 무역 지평선상의 미세 구조 속성을 활용하여 인기있는 Almgren-Chriss 폐쇄 형 솔루션을 거래 궤도 ([1] 참조)에 대해 향상시킬 수 있다고 생각합니다.
이러한 맥락에서 Reinforcement Learning은 근본적으로 상태를 최적의 동작에 매핑하는 교정 된 정책입니다. 각 상태는 시스템의 현재 구성을 설명하는 관찰 가능한 속성의 벡터입니다. 그것은 주어진 상태에 대해 선택된 행동의 질이 연속적으로 개선되는 통제 된 Markovian 영역에서 최적으로 행동하는 법을 배우는 단순하고 모델없는 메커니즘을 제안한다. 최적의 청산 문제를 위해 알고리즘은 현재 주문서의 현저한 특징과 현재 실행 상태를 검사하여 비용 최소화의 궁극적 인 목표를 달성하기 위해 어떤 조치 (예 : 어린이 주문 가격 또는 거래량)를 선택할지 결정합니다.
현대 금융 시장에서 무역 실행의 최적화 문제에 대한 강화 학습 알고리즘의 대규모 경험적 적용에 대한 최초의 문서화는 [20]에 의해 수행되었다. 그들은 이산 기간으로 고정 된 시간대에 구매 / 판매 프로그램에 대한 구현 부족분의 최소화로 문제를 설정했습니다. 조치의 경우 상담원은 각 개별 기간의 나머지 공유에 대한 제한 오더를 재현 할 가격을 선택할 수 있습니다. 상태 속성에는 경과 시간, 잔여 재고, 현재 스프레드, 즉각적인 비용 및 서명 된 볼륨이 포함됩니다. 그들의 결과에서, 그들의 Reinforcement Learning 알고리즘은 전통적인 제출 및 휴가 또는 시장 질서 정책에 비해 실행 효율성을 50 % 이상 향상시키는 것으로 나타났습니다.
[20]에서와 같이이 문제에 대한 순수한 Reinforcement Learning 솔루션 대신에, 우리는 시장 미세 구조의 속성을 가진 주어진 분석 솔루션을 향상시키는 하이브리드 접근법을 제안한다. Almgren-Chriss (AC) 모델을 기본으로 사용하여 이산 거래 기간이있는 한정된 청산 지평선에서 알고리즘은 일반적인 볼륨 / 스프레드 특성을 기반으로 AC 제안 궤도의 거래 비율을 결정합니다. 예를 들어, 물량이 상대적으로 높고 스프레드가 타이트 할 때 궤적을보다 공격적으로 허용하면 무역의 궁극적 인 비용을 줄일 수 있다고 예상 할 수 있습니다. 우리의 구현에서 정적 볼륨 궤적은 무역 기간 동안 유지되지만 거래되는 비율은 시장 역학과 관련하여 역동적입니다. [20]에서와 같이, 시장 청산은 완전한 청산을 보장하기 위해 남은 거래량에 대한 무역 지평선의 끝에서 실행된다. 우리의 분석에서 중요한 고려 사항은 유한 수평 마코프 결정 프로세스 (MDP)와 보강 학습 알고리즘의 최적 정책 수렴에 대한 결과로서의 문제의 명세입니다. [20]에서 그들은 경과 시간을 상태 속성으로 통합하여이 문제를 해결하기 위해 프레임 워크에서 근사를 사용하지만 컨버전스를 명시 적으로 논의하지는 않습니다. 우리는 모델 명세에서 [14]의 발견을 사용하고 유한 지평선 MDP 문제의 거의 최적의 정책 수렴을 입증 할 것이다.
위에서 설명한 모델을 기본 Almgren-Chriss 모델과 비교하여 다양한 유형의 거래에 대한 실행 비용을 지속적으로 또는 크게 증가 시킬지 여부를 결정합니다. 이 연구는 Reinforcement Learning이 알고리즘에 적용되는 미세 구조의 뉘앙스를 활용하기 위해 기존의 폐쇄 형 솔루션을 확장하는 데 사용할 수있는 실행 가능한 기술인지 여부를 결정하는 데 도움이됩니다.
이 논문은 다음과 같이 진행됩니다 : 2 절에서는 표준 Almgren-Chriss 모델을 소개합니다. 3 절에서는 제안 된 특정 하이브리드 Reinforcement Learning 기법과 최적의 동작 값에 대한 수렴에 대해 설명한다. 4 절에서는 여러 거래 유형에 대한 2 가지 모델을 비교하면서 사용 된 데이터와 결과에 대해 논의한다. 5 절에서는 앞으로의 연구를위한 결론을 내리고 제안한다.
II. THE ALMGREN-CHRISS MODEL
Bertsimas와 Lo는이 문제를 확률 론적 동적 프로그래밍 문제 [7]로 간주하여 최적 액화 영역의 개척자이다. 그들은 명확한 닫힌 형태의 최상의 실행 전략을 발견하는 동적 최적화 절차를 채택하여 대규모 트랜잭션의 일정 기간 동안 거래 비용을 최소화했습니다. Almgren과 Chris는 프레임 워크에서 위험 회피를 허용하기 위해 [7]의 작업을 확장했습니다 [1]. 그들은 최적 해법의 실행의 불확실성을 통합하는 것이 상인의 효용 함수와 일치한다고 주장한다. 특히, 이들은 선형 영구 및 임시 가격 영향 함수가 최적 실행의 효율적인 프론티어를 구축 할 수있는 가격 프로세스를 채택합니다. 그들은 실행 전략의 기대 수준과 같거나 낮은 수준에서 실행 비용 편차가 낮은 전략이 없다면 효율적으로 거래 전략을 정의합니다.
솔루션의 설명은 다음과 같습니다. 보안 가격이 개별 산술 Random Walk에 따라 발전한다고 가정합니다.
Sk =Sk−1 +στ1/2ξk −τg(nk), τ
where:
Sk = price at time k,
σ = volatility of the security,
τ = length of discete time interval,
ξk = draws from independent random variables,nk = volume traded at time k and
g(.) = permanent price impact.
여기서 영구 가격 효과는 우리의 거래의 직접적인 기능인 평형 가격의 변화를 말하며 적어도 청산 지평 기간의 나머지 기간 동안 지속됩니다. 임시 가격 영향이란 유동성 공급을 흡수 한 결과로 인한 불리한 편차를 말하나, 주문 도서의 회복력으로 인해 다음 거래 기간까지 영향이 분산되는 곳을 말합니다. Almgren과 Chris는 h (v)가 거래 가격 v [1]의 함수로서 주가에 일시적으로 불리한 움직임을 일으키는 임시 가격 영향 함수 h (v)를 그들의 모델에 도입한다. 이 추가를 감안할 때, 시간 k에서의 실제 보안 거래 가격은 다음과 같이 주어진다.
AC 솔루션은 청산 지평선에 대해 제안 된 볼륨 궤적을 산출하지만, 거래 목록을 실행하기위한 규정 된 주문 유형에 대한 논의는 없다. 우리는 무역 목록을 일련의 시장 명령으로 실행할 수 있다고 가정했다. 이는 우리가 항상 스프레드를 넘고 있다는 것을 의미하므로, 얇은 책자를 가진 주문서를 통과하고 가격이 폭넓게 존재할 경우 상당한 거래 비용에 영향을 미칠 수 있다는 점을 고려해야합니다. 따라서 현재의 주문 도서 역학을 기반으로 스프레드를 가로 지르는시기와 양을 파악하는 보강 학습 기술을 고려합니다.
위에서 요약 된 일반적인 해법은 선형 가격 영향 함수를 가정하지만 모델은 비선형 가격 영향을 설명하기 위해 [2]에서 Almgren에 의해 확장되었다. 이 확장 모델은 향후 연구에서 대안 기본 모델로 간주 될 수 있습니다.
III. A REINFORCEMENT LEARNING APPROACH
강화 학습 연구의 대부분은 Markov Decision Processes (MDPs) [4]의 형식주의에 기반을두고있다. 이러한 맥락에서 보강 학습은 상태를 최적 또는 거의 최적의 동작으로 매핑 한 교정 된 정책 매핑을 위해 수치 적으로 풀리는 데 사용되는 기술입니다. 이것은 학습 에이전트가 환경 상태를 반복적으로 관찰 한 다음 궁극적 인 목표를 달성하기 위해 선택한 조치를 수행하는 프레임 워크입니다. 행동의 수행은 즉각적인 수치 보상이나 벌칙을 가지며 환경 상태를 변화시킨다. 최적의 정책 맵핑 상태를 해결하기위한 문제는 확률 론적 제어 이론에서 잘 알려져 있으며 Bellman [5]의 중요한 공헌으로 잘 알려져있다. Bellman은 MDP의 계산 부담이 현재 동적 프로그래밍으로 알려진 것을 사용하여 상당히 감소 될 수 있음을 보여주었습니다. 그러나 고전적인 동적 프로그래밍에는 두 가지 중요한 단점이 존재한다는 것이 인정되었습니다. 첫째, 환경의 완전하고 알려진 모델이 존재한다고 가정합니다. 실제로는 현실적으로 얻을 수없는 경우가 많습니다. 둘째, 상태 변수의 수가 증가함에 따라 문제가 급격하게 계산적으로 어려워지며, 따라서 값 함수를 계산해야하는 상태 공간의 크기가 커집니다. 이 문제는 차원의 저주라고 불린다.
강화 학습은 고전적인 동적 프로그래밍에 비해 두 가지 이점을 제공합니다. 첫째, 상담원은 온라인에서 학습하고 주어진 작업을 수행하면서 지속적으로 적응합니다. 둘째,이 방법은 함수 근사 알고리즘을 사용하여 지식을 나타낼 수 있습니다. 이것은 학생들로 하여금 상태 공간을 통해 일반화 할 수있게하여 학습 시간이 훨씬 더 확장된다 [12]. 강화 학습 알고리즘은 MDP를 관리하는 정확한 모델에 대한 지식을 필요로하지 않으므로 정확한 방법이 실행 불가능한 MDP에 적용될 수 있습니다.
강화 학습의 많은 구현이 존재하지만, 우리는 Q- 학습에 초점을 맞출 것입니다. 이것은 [27]에 의해 처음 도입 된 모델이없는 기법으로, 주어진 MDP에 대해 최적 또는 거의 최적의 동작 선택 정책을 찾는 데 사용할 수 있습니다.
B. 최적의 청산을위한 이행
위의 논의를 감안할 때 최적 청산 문제의 맥락에서 국가 속성, 행동 및 보상에 대한 구체적인 선택을 논의 할 수 있습니다. 고정 거래 기간 동안 다량의 주식을 처분하는 궁극적 인 목적을위한 기회를 나타내는 실행 상태 및 제한적 주문의 현재 상태를 적절하게 설명하는 사양을 고려해야합니다.
1) States : 우리는 금융 시스템의 복잡성이 유한 상태 집합으로 증류 될 수없고 마르코프 프로세스에 따라 진화 할 가능성이 없다는 것을 인정합니다. 그러나 우리는 의미있는 통찰력을 추측 할 수있는 간소화 가정을 사용하여 시스템의 본질을 완전히 이해할 수 있다고 가정합니다. 단순화를 위해 Q의 look-up 테이블 표현을 선택했습니다.보다 복잡한 시스템 구성에 대한 향후 연구는 함수 – 근사 변환을 탐색 할 수 있습니다. 위에서 설명한 것처럼 각 상태 xn ∈ X는 시간 n에서 시스템의 구성을 설명하는 관측 가능한 속성의 벡터를 나타냅니다. [20]에서와 같이, Elapsed Time과 Remaining Inventory i를 사유 재산으로 사용하여 유한 상태 인 T를 통해 실행 상태를 포착합니다. 우리의 목표는 유리한 시황 조건에 따라 주어진 볼륨 궤적을 수정하는 것이므로 볼륨 후보 시장 속성으로 여기서 직관은 상담원이 스프레드가 좁은 경우 (넓고 크게) 거래 활동을 늘리는 (감소시키는) 법을 배우게된다는 것입니다. 이를 통해 총 거래량 중 더 중요한 부분이 유리한 가격으로 보장되고 동시에 불리한 가격이 적어지면 궁극적으로 무역 후 적자를 줄일 수 있습니다. 룩업 테이블 구현이 주어지면,
다음과 같이
이 모델 명세서에서 중요한 가정은 우리의 거래 활동이 시장 속성에 영향을 미치지 않는다는 것이다. 지배적 인 주문 주문서에 시장 질서의 심도 깊은 참여를 통해 임시 가격 영향이 실행 가격에 통합되지만, 우리는 제한 주문서가 우리의 거래 활동에 대해 탄력적이라고 가정합니다. 시장 탄력성은 시장 확산이 경쟁적 수준으로 되돌아 가기 전에 견적 갱신 수로 생각할 수 있습니다. Degryse et al. 순수한 한도 주문 도서 시장 (Euronext Paris)은 대부분의 주문 크기에 대해 상당히 탄력적이며, 가장 공격적인 주문에 따라 스프레드가 평균 50 개의 견적을 갱신하여 정상화되는 것으로 나타났습니다. 우리가 5 분 거래 간격과 작은 거래 규모를 사용하고 있기 때문에, 우리는 다음 거래 기간에 영구적 인 가격 영향 효과가 사라질 것으로 추정 할 것입니다. 남아공 주식에 대한 예비 분석 결과, 5 분간의 거래 간격 동안 평균 1,000 건이 넘는 견적이 있었고 대형 거래의 경우 2 분 이내에 사전 거래 주문서 평형이 회복되었음을 알 수있었습니다. 그러나이 가정의 타당성은 향후 연구에서 시험 될 것이며, 시스템 구성에 영원한 영향을 포함하는 다른 모델 사양도 검토 될 것이다.
[14]는 이것이 유한 한 지평선 MDP에 대한 확률 1을 갖는 최적 정책에 대한 수렴을 보장하기 위해 필요한 조건이라고 말하기 때문에 γ = 1로 설정한다. 우리는 또한 λ에 대한 임의의 값을 선택한다. 그러나 이들 매개 변수에 대한 민감도는 향후 연구에서 탐구 될 것이다. AC 매개 변수는 2012 년 1 월 1 일부터 2012 년 6 월 30 일까지 6 개월간의 교육 과정을 통해 보정되고 Q 행렬이 훈련됩니다. 결과 AC 및 RL 거래 경로는 2012 년 1 월 7 일부터 2012 년 12 월 20 일까지의 테스트 세트에서 지정된 거래 시간 H로 매일 실행됩니다. 두 모델에 대한 구현 부족이 계산되고 그 차이가 기록됩니다. 이를 통해 우리는 AC 및 RL 모델 각각 및 모든 거래 시간 H = 9, 10, …, 16에 대한 구현 부족분의 분포를 구성 할 수 있습니다.
C. Results
표 1은 전체 주식 및 매개 변수 집합에 대한 중간 구현 부족의 평균 % 개선을 보여줍니다. 이 결과는 모델이 기본 AC 모델보다 평균 10.3 % 향상된 평균 거래 수준 (T = 4)에 더 효과적임을 시사합니다. 이 결과는 주문서 회복력의 가정으로 인해 편향 될 수 있습니다. 실제로, 훈련 된 Q- 매트릭스의 효력은 영구적 가격 효과가 상태 공간 전이에 영향을 미치기 때문에 느린 오더 책 탄력성을 나타내는 주식에 대해서는 신뢰성이 떨어질 수있다. 향후 작업에서는이 주문서 회복력 가정을 완화하고 영구적 영향을 국가 전환으로 통합 할 계획입니다.
그림 1은 주어진 거래 시간에 각 후보 종목에 대해 각 모델에 의해 생성 된 거래량 궤도를 실행할 때의 시장 후 거래 이행 부족분의 개선을 보여준다. 일반적으로 RL 모델은 시행 후 부족분을 개선 할 수 있지만 (낮아짐), 이른 아침 / 늦은 오후 거래 시간에는 개선이 더 중요해 보입니다. 이것은이 시간에 증가 된 거래 활동으로 인해 관련 Q- 매트릭스 값을 세분화하기 위해 훈련에서보다 많은 주 – 액션 방문을 초래할 수 있습니다. 또한 10:00에서 11:00 사이에 더 많은 퍼포먼스가 있음을 알 수 있습니다. 이 기간은 런던 증권 거래소 (LSE)에서 특정 SA 주식이 이중 상장되어 있기 때문에 글로벌 이벤트가 현지 거래 활동을 유도하고 결과를 왜곡 할 수있는 영국 시장 개방과 일치합니다. 이행 부족분의 개선은 16:00에서 17:00 사이에 SBK 1,000,000 거래에서 15 bps (85.3 %), 16:00에서 17:00 사이에 100,000 SAB 거래시 -7 bps (-83.4 %)로 다양합니다. . 전반적으로, RL 모델은 구현 부족분을 4.8 %까지 향상시킬 수 있습니다.
그림 2는 각 튜플 방문 후 트레이닝 프로세스를 통해 발전하므로 Q- 매트릭스에 의해 암시 된 올바른 동작의 %를 보여줍니다. 여기서 올바른 조치는 스프레드가 50 % ile보다 크고 볼륨이 아래 (위)에있는 경우 최대 Q-value 동작을 기반으로 볼륨 대 거래에서 감소 (추가)로 정의됩니다. 50 % 수준. 이것은 RL 에이전트가 배우기를 바라는 직관적 인 행동과 일치합니다. 이 결과는보다 세밀한 상태의 세분화 (I, B, W = 10)가 학습 에이전트의 전반적인 정확도를 향상 시킨다는 것을 보여줍니다. 모든 모델 구성은 약 1000 회 튜플 방문 후에 고정 된 정확도 수준으로 수렴하는 것으로 보이므로 교육 기간이 짧으면 비슷한 결과가 발생할 수 있습니다. 그러나 우리는 상태 공간의 세밀도를 증가시킴으로써 올바른 동작의 비율을 개선한다고해서 반드시 더 나은 모델 성능으로 변환되는 것은 아니라는 점에 유의하십시오. 이것은 I, B, W = 10 인 결과가 I, B, W = 5 인 경우에 비해 현저한 개선을 보이지 않는 표 1에서 볼 수 있습니다. 이는 시장의 동력이 대량으로 표현되지 않을 수 있음을 의미합니다. 확산 상태 속성 및 대안 상태 속성은 사후 모델 효능을 개선하기위한 향후 연구에서 탐구되어야한다.
표 2는 각 AC 및 RL 모델을 사용할 때 결과 구현 부족의 평균 표준 편차를 보여줍니다. 우리가 RL 보상 함수에서 실행의 분산을 명시 적으로 설명하지 않았기 때문에 최종 무역 궤도가 기본 AC 모델에 비해 더 높은 표준 편차를 생성한다는 것을 알 수 있습니다. 따라서 RL 모델은 AC 모델에 비해 성능이 향상되지만, 이는 실행 위험도가 높을 때 달성되며, 이는 상인에게 받아 들여지지 않을 수 있습니다. 우리는 RL 모델이 T = 4에 대해 유사한 위험을 나타냄을 알 수있다. 따라서 짧은 무역 지평선을 통해 IS를 안정적으로 개선하기위한 RL 모델의 사용을 검증한다. RL 모델에 대한 앞으로의 개선은 AC 목적 함수와 일치하도록 실행의 다양성을 포함해야한다. 이러한 방식으로 기술의 진정한 비교가 이루어질 수 있으며, 실제로 RL 모델이 통계적으로 유의 수준에서 AC 모델을 능가하는지 여부에 관해 결론을 내릴 수 있습니다.
V. CONCLUSION
본 논문에서는 주어진 최적의 유동화 궤적을 향상시키기위한 후보 기계 학습 기법으로 보강 학습을 도입 하였다. Nevmyvaka, Feng and Kearns는 강화 학습이 고정 된 청산 지평선을 통해 이산 기간에 나머지 재고를 배치 할 최적의 제한 주문 가격을 선택하도록 학습 에이전트가 유망한 결과를 제공한다는 것을 보여주었습니다 [20]. 여기에서는 보강 학습이 시장 지배력을 기반으로 주어진 볼륨 궤도를 수정하는데 널리 사용되며, 지배적 인 제한 주문서에 기반한 일련의 시장 주문을 통해 실행될 수 있음을 보여줍니다.
특히 간단한 룩업 테이블 Q- 학습 기법을 사용하여 학습 에이전트를 교육하여 주문서 복원력이 있다고 가정 할 때 널리 퍼진 스프레드 및 볼륨 역학을 기반으로 정적 Almgren-Chriss 볼륨 궤적을 수정할 수 있습니다. 남아 프리카 주식 시장에서 주식 및 거래 규모 샘플을 사용하여 단기 무역 지평 기간 동안 평균 10.3 %까지 무역 후 이행 실 패를 안정적으로 개선 할 수 있었으며이 기법의 잠재적 응용 가능성을 보여주었습니다. 추가 조사는 RL 보상 기능의 실행 분산을 통합하고 주문서 회복력 가정을 완화하고 시장 역학을 통제하기 위해 대체 상태 속성을 포함합니다.