DOI QR코드

DOI QR Code

Optimization of Stock Trading System based on Multi-Agent Q-Learning Framework

다중 에이전트 Q-학습 구조에 기반한 주식 매매 시스템의 최적화

  • 김유섭 (한림대학교 정보통신공학부) ;
  • 이재원 (성신여자대학교 컴퓨터정보공학부) ;
  • 이종우 (㈜아이닉스소프트)
  • Published : 2004.04.01

Abstract

This paper presents a reinforcement learning framework for stock trading systems. Trading system parameters are optimized by Q-learning algorithm and neural networks are adopted for value approximation. In this framework, cooperative multiple agents are used to efficiently integrate global trend prediction and local trading strategy for obtaining better trading performance. Agents Communicate With Others Sharing training episodes and learned policies, while keeping the overall scheme of conventional Q-learning. Experimental results on KOSPI 200 show that a trading system based on the proposed framework outperforms the market average and makes appreciable profits. Furthermore, in view of risk management, the system is superior to a system trained by supervised learning.

본 논문은 주식 매매 시스템을 위한 강화 학습 구조를 제시한다. 매매 시스템에 사용되는 매개변수들은 Q-학습 알고리즘에 의하여 최적화되고, 인공 신경망이 값의 근사치를 구하기 위하여 활용된다 이 구조에서는 서로 유기적으로 협업하는 다중 에이전트를 이용하여 전역적인 추세 예측과 부분적인 매매 전략을 통합하여 개선된 매매 성능을 가능하게 한다. 에이전트들은 서로 통신하여 훈련 에피소드와 학습된 정책을 서로 공유하는데, 이 때 전통적인 Q-학습의 모든 골격을 유지한다. 실험을 통하여, KOSPI 200에서는 제안된 구조에 기반 한 매매 시스템을 통하여 시장 평균 수익률을 상회하며 동시에 상당한 이익을 창출하는 것을 확인하였다. 게다가 위험 관리의 측면에서도 본 시스템은 교사 학습(supervised teaming)에 의하여 훈련된 시스템에 비하여 더 뛰어난 성능을 보여주었다.

Keywords

References

  1. S. M. Kendall and K. Ord, 'Time Series,' Oxford, New York, 1997
  2. R. Neuneier, 'Enhancing Q-Learning for Optimal Asset allocation,' Advanced in Neural Information Processing System, 10, MIT Press, Cambridge, pp.936-942, 1998
  3. J. Lee, 'Stock Price Prediction using Reinforcement Learning,' Proc. of the 6th IEEE International Symposium on Industrial Electronics, 2001 https://doi.org/10.1109/ISIE.2001.931880
  4. R. S. Sutton and A. G. Barto, 'Reinforcement Learning : An Introduction,' MIT Press, Cambridge, 1998
  5. M. Jakkola, M. Jordan and S. Signh, 'On the Convergence of Stochastic Iterative Dynamic Programming Algorithms,' Neural Computation, 6(6), pp.1185-2201, 1994 https://doi.org/10.1162/neco.1994.6.6.1185
  6. L. C. Baird, 'Residual Algorithms : Reinforcement Learning with Function Approximation,' Proc. of Twelfth International Conference on Machine Learning, Morgan Kaufmann, San Francisco, pp.30-37, 1995
  7. R. Neuneier and O. Mihatsch, 'Risk Sensitive Reinforcement Learning,' Advances in Neural Information Processing Systems, 11, MIT Press, Cambridge, pp.1031-1037, 1999
  8. J. Moody, Y. Wu, Y. Liao and M. Saffell, 'Performance Functions and Reinforcement Learning for Trading Systems and Portfolios,' Journal of Forecasting, 17(5-6), pp.441-470, 1998 https://doi.org/10.1002/(SICI)1099-131X(1998090)17:5/6<441::AID-FOR707>3.0.CO;2-#
  9. J. Moody and M. Saffell, 'Learning to Trade via Direct Reinforcement,' IEEE Transactions on Neural Networks, 12(4), pp.875-889, 2001 https://doi.org/10.1109/72.935097
  10. G. Xiu, C. Laiwan, 'Algorithm for Trading and Portfolio Management Using Q-learning and Sharpe Ratio Maximization,' Proc. of ICONIP 2000, Korea, pp.832-837, 2000