재귀적 분할 평균에 기반한 점진적 규칙 추출 알고리즘

An Incremental Rule Extraction Algorithm Based on Recursive Partition Averaging

  • 한진철 (명지대학교 컴퓨터공학과) ;
  • 김상귀 (명지대학교 컴퓨터공학과) ;
  • 윤충화 (명지대학교 컴퓨터공학과)
  • 발행 : 2007.01.15

초록

패턴 분류에 많이 사용되는 기법 중의 하나인 메모리 기반 추론 알고리즘은 단순히 메모리에 저장된 학습패턴 또는 초월평면과 테스트 패턴간의 거리를 계산하여 가장 가까운 학습패턴의 클래스로 분류하기 때문에 테스트 패턴을 분류하는 기준을 설명할 수 없다는 문제점을 가지고 있다. 이 문제를 해결하기 위하여, 메모리 기반 학습 기법인 RPA를 기반으로 학습패턴들에 내재된 규칙성을 표현하는 IF-THEN 형태의 규칙을 생성하는 점진적 학습 알고리즘을 제안하였다. 하지만, RPA에 의해 생성된 규칙은 주어진 학습패턴 집합에만 충실히 학습되어 overfitting 현상을 보이게 되며, 또한 패턴 공간의 과도한 분할로 인하여 필요 이상으로 많은 개수의 규칙이 생성된다. 따라서, 본 논문에서는 생성된 규칙으로부터 불필요한 조건을 제거함으로써 ovefitting 현상을 해결함과 동시에 생성되는 규칙의 개수를 줄일 수 있는 점진적 규칙 추출 알고리즘을 제안하였으며, UCI Machine Learning Repository의 벤치마크 데이터를 이용하여 제안한 알고리즘의 성능을 입증하였다.

One of the popular methods used for pattern classification is the MBR (Memory-Based Reasoning) algorithm. Since it simply computes distances between a test pattern and training patterns or hyperplanes stored in memory, and then assigns the class of the nearest training pattern, it cannot explain how the classification result is obtained. In order to overcome this problem, we propose an incremental teaming algorithm based on RPA (Recursive Partition Averaging) to extract IF-THEN rules that describe regularities inherent in training patterns. But rules generated by RPA eventually show an overfitting phenomenon, because they depend too strongly on the details of given training patterns. Also RPA produces more number of rules than necessary, due to over-partitioning of the pattern space. Consequently, we present the IREA (Incremental Rule Extraction Algorithm) that overcomes overfitting problem by removing useless conditions from rules and reduces the number of rules at the same time. We verify the performance of proposed algorithm using benchmark data sets from UCI Machine Learning Repository.

키워드

참고문헌

  1. T. Dietterich, 'A Study of Distance-Based Machine Learning Algorithms,' Ph. D. Thesis, computer Science Dept., Oregon State University, 1995
  2. Ian H. Witten, Eibe Frank, Data Mining, Morgan Kaufmann, 1999
  3. J. R. Quinlan, 'Simplifying Decision Trees,' Knowledge Acquisition for Knowledge-Based Systems, pp.239-252, Academic Press, 1988
  4. J. R. Quinlan,' Induction of decision trees,' Machine Learning, Vol.1, No.1, pp.81-106, 1986
  5. J. R. Quinlan, 'C4.5: Programs for Machine Learning,' Morgan Kaufmann Publishers, San Mateo, CA, 1993
  6. J. Cendrowska, 'PRISM : An Algorithm for inducing modular rules,' International Journal of Man-Machine Studies, 27(4): pp.349-370, 1987 https://doi.org/10.1016/S0020-7373(87)80003-2
  7. Johannes Fürnkranz, Gerhard Widmer, 'Incremental Reduced Error Pruning,' Proceedings of the 11th International Conference on Machine Learning, Morgan Kaufmann, pp.70-77, 1994
  8. Cohen, W. W., 'Fast effective rule induction,' In Proceedings of the 12th International Conference on Machine Learning, pp. 115-123, Morgan Kaufmann, 1955
  9. Eibe Frank, Ian H. Witten, 'Generating accurate rule sets without global optimization,' Proc. 15th International Conference on Machine Learning, pp. 144-151, Morgan Kaufmann, San Francisco, CA, 1998
  10. Rissanen, J., 'Modelling by shortest data description,' Automatica, 14, pp.45-471, 1978
  11. 이형일, 정태선, 윤충화, 강경식, '재귀분할 평균법을 이용한 새로운 메모리기반 추론 알고리즘,' 한국정보처리학회 논문지, Vol.6, No.7, pp.1849-1857, 1999
  12. D. Aha, 'A Study of Instance-Based Algorithms for Supervised Learning Tasks: Mathematical, Empirical, and psychological Evaluations,' Ph. D. Thesis, Information and Computer Science Dept., University of California, Irvine, 1990
  13. Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J., 'UCI Repository of machine learning databases,' Irvine, CA: University of California, Department of Information and Computer Science, 1998 [http:// www.ics.uci.edu/~mlearn/MLRepository.html]