시장 조성의 딜레마: 지연 시간과 재고 위험을 극복하는 강화학습의 새로운 지평


본 기사는 지연 시간과 재고 위험을 고려한 강화학습 기반 시장 조성 알고리즘 Relaver에 대한 연구를 소개합니다. Relaver는 주문 유지 시간을 포함한 확장된 상태-행동 공간, 동적 계획법 기반 탐색, 시장 추세 예측기를 활용하여 기존 방법보다 성능을 크게 향상시켰습니다.

related iamge

들어가며: 주식 시장의 고주파 거래(High-Frequency Trading) 시대, 시장 조성자(Market Maker)는 초단위의 속도 경쟁 속에서 수익을 창출해야 합니다. 하지만 거래소의 하드웨어 한계, 시스템 처리 시간, 데이터 수신 지연 등으로 인한 지연 시간은 시장 조성의 큰 걸림돌입니다. 이러한 지연은 가격 차이로 인한 주문 취소 및 원치 않는 재고 누적을 야기하며, 시장 위험을 증폭시킵니다. 기존의 강화 학습 기반 시장 조성 방법들은 이러한 지연 시간의 영향을 간과해 왔습니다.

혁신적인 해결책, Relaver: Jiang Junzhe 등 연구진은 이러한 문제를 해결하기 위해 Relaver라는 혁신적인 강화 학습 기반 시장 조성 방법을 제안했습니다. Relaver는 30~100밀리초의 무작위 지연 시간을 고려한 현실적인 환경에서 동작하며, 일부 거래소에서 채택하는 일괄 경매 메커니즘을 모방하여 500밀리초마다 주문을 일괄 매칭합니다.

Relaver의 핵심:

  • 확장된 상태-행동 공간: 가격과 거래량 외에 주문 유지 시간을 포함하여 지연 시간 제약 및 시간 우선 순위 매칭 메커니즘 하에서 실행 전략을 최적화합니다. 즉, 단순히 가격 변동에만 반응하는 것이 아니라, 주문을 얼마나 오랫동안 유지할지에 대한 전략까지 고려하는 것입니다.
  • 동적 계획법(DP) 기반 탐색: 강화 학습 훈련의 탐색 과정을 동적 계획법으로 개선하여 더 나은 정책을 학습합니다. 이는 마치 미래를 예측하여 최적의 경로를 찾아가는 것과 같습니다.
  • 시장 추세 예측기: 시장의 흐름을 예측하고, 이를 기반으로 재고를 지능적으로 조절하여 위험을 줄입니다. 이는 위험 관리에 있어서 능동적인 대응을 가능하게 합니다.

실험 결과: 네 개의 실제 데이터셋을 이용한 광범위한 실험 결과, Relaver는 기존 최첨단 강화 학습 기반 시장 조성 전략에 비해 여러 지표에서 성능을 크게 향상시켰습니다.

결론: Relaver는 지연 시간과 재고 위험이라는 현실적인 문제를 효과적으로 해결하는 강화 학습 기반 시장 조성 알고리즘으로, 실제 시장 조성 환경에 적용될 가능성을 보여주는 획기적인 연구입니다. 이는 단순한 알고리즘 개선을 넘어, 고주파 거래 시장의 안정성과 효율성 향상에 기여할 것으로 기대됩니다. 하지만, 실제 시장 적용 전에 추가적인 테스트와 검증이 필요하며, 예측 모델의 정확도 향상을 위한 지속적인 연구가 요구됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Resolving Latency and Inventory Risk in Market Making with Reinforcement Learning

Published:  (Updated: )

Author: Junzhe Jiang, Chang Yang, Xinrun Wang, Zhiming Li, Xiao Huang, Bo Li

http://arxiv.org/abs/2505.12465v1