정보기준과 다중 중심점을 활용한 클러스터별 예측

Prediction on Clusters by using Information Criterion and Multiple Seeds

  • 조영희 (단국대학교 컴퓨터과학과) ;
  • 이계성 (단국대학교 컴퓨터과학과)
  • 투고 : 2010.11.22
  • 심사 : 2010.12.15
  • 발행 : 2010.12.31

초록

본 연구에서는 시계열 자료를 베이지안 정보기준을 통해 클러스터링 한다. 보다 안정적인 클러스터를 생산하기 위해 다중 중심점을 모델링한 후 이를 이용하여 클러스터를 생성시킨다. 대상 시계열 자료에 대해 예측할 경우 클러스터에 속한 시계열 자료 중 가장 유사한 시계열 자료를 선택하여 모델링한다. 모델로부터 마코프 규칙을 유도해 내고 이 규칙을 이용해 예측정확도를 측정한다. 시계열 자료를 단독으로 모델링한 후 예측한 결과보다 클러스터에 속한 유사시계열 모델링을 통한 예측정확도가 좀 더 높았음을 확인하였다.

Bayesian information criterion is used to do clustering for time series data. To acquire more stable clusters, multiple seeds are chosen first for the algorithm. Once clusters being set up, most similar time series data in the cluster to the one under consideration are to be chosen for prediction test. These chosen time series data are used to extract valid Markov rules by which we test the prediction accuracy. We confirmed that clustering with multiple seeds led to better prediction performance.

키워드

참고문헌

  1. 전진호, 이계성, "시계열 데이터의 모델기반 클러스터 결정에 관한 연구", 한국콘텐츠학회 논문지 제 7권 6호, 22-30쪽, 2007년 6월
  2. E.S. Ristad & P.N. Yianilog, "Learning strig edit distance," Proc of the 4th Int. Conf. on Machine Learning, pp. 773-779, 1997
  3. Papageorgiou, C. P., "High frequency time series analysis and prediction using Markov models," in Proc. of the conf. on Comp. Intelligence for Finance, pp.182-185, Mar. 1997.
  4. L.R. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," Proc. of the IEEE, vol.77, no.2, pp.557-286, 1989 https://doi.org/10.1109/5.18626
  5. C. Li, and G. Biswas, "Building models of ecological dynamics using HMM based temporal data clustering," IDA 2001, pp. 53-62. 2001
  6. Duan, J. et al., "A prediction algorithm for time series based on adaptive model selection," Expert Systems with Applications 36, pp. 1308-1314, 2009. https://doi.org/10.1016/j.eswa.2007.11.021
  7. 조영희, 이계성, "마코프 모델에 기반한 시계열 자료의 모델링 및 예측" 한국정보컴퓨터 학회논문지 게재 예정
  8. M.R. Hassan, B. Nath, M. Kirley, "A fusion model of HMM, ANN, and GA for stock market forecasting," Expert Systems with Applications 33, pp. 171-180, 2007. https://doi.org/10.1016/j.eswa.2006.04.007
  9. A. Sorjamaa, et al., "Methodology for long-term prediction of time series," Neurocomputing, pp. 178-186. Elsevier, 2007.
  10. 조영희, 이계성, "다중 유사 시계열 모델링 방법을 통한 예측 정확도 개선에 관한 연구," 한국인터넷 방송통신학회 논문지, 제10권 6호, 2010.
  11. J.I. Myung, D.J. Navarro, M.A. Pitt, "Model selection by normalized maximum likelihood,", Journal of Mathmatical Psychology, pp.167-179, 2006.