A Representative Pattern Generation Algorithm Based on Evaluation And Selection

평가와 선택기법에 기반한 대표패턴 생성 알고리즘

  • Published : 2009.03.31


The memory based reasoning just stores in the memory in the form of the training pattern of the representative pattern. And it classifies through the distance calculation with the test pattern. Because it uses the techniques which stores the training pattern whole in the memory or in which it replaces training patterns with the representative pattern. Due to this, the memory in which it is a lot for the other machine learning techniques is required. And as the moreover stored training pattern increases, the time required for a classification is very much required. In this paper, We propose the EAS(Evaluation And Selection) algorithm in order to minimize memory usage and to improve classification performance. After partitioning the training space, this evaluates each partitioned space as MDL and PM method. The partitioned space in which the evaluation result is most excellent makes into the representative pattern. Remainder partitioned spaces again partitions and repeat the evaluation. We verify the performance of Proposed algorithm using benchmark data sets from UCI Machine Learning Repository.

메모리 기반 추론 기법은 단순히 학습패턴이나 대표패턴의 형태로 메모리에 저장하며 테스트 패턴과의 거리 계산을 통하여 분류한다. 이 기법의 가장 큰 문제점은 학습 패턴 전체를 메모리에 저장하거나 학습 패턴들을 대표 패턴으로 대체하는 방법을 사용함으로 다른 기계학습 방법에 비하여 많은 메모리 공간을 필요로 하며, 저장되는 학습패턴이 증가할수록 분류에 필요한 시간도 많이 소요된다는 단점을 갖는다. 본 논문은 효율적인 메모리 사용과 분류 성능의 향상을 위한 EAS 기법을 제안하였다. 즉, 학습패턴에 대해 분할공간을 생성한 후 생성된 각 분할공간을 MDL기법과 PM기법으로 평가하였다. 그리고 평가 결과 가장 우수한 분할공간만을 취하여 대표패턴으로 삼고 나머지는 다시 분할하여 평가를 반복하는 기법이다. UCI Machine Learning Repository에서 벤치마크 데이터를 발췌한 실험 자료를 사용하여 제안한 기법의 성능과 메모리 사용량에 있어 우수함을 입증하였다.



  1. T. Dietterich, "A Study of Distance-Based Machine Learning Algorithms," Ph. D. Thesis, computer Science Dept., Oregon State University, 1995.
  2. D. Aha, "A Study of Instance-Based Algorithms for Supervised Learning Tasks: Mathematical, Empirical, and Psychological Evaluations," Ph. D. Thesis, Information and Computer Science Dept., University of California, Irvine, 1990.
  3. 김경재, "자료편집기법과 사례기반추론을 이용한 한국종합주가지수 예측," 한국컴퓨터정보학회논문지, 제12권, 제6호, 287-295쪽, 2007년 11월.
  4. Cindy Marling, Edwina Rissland and Agnar Aamodt, "Integrations with Case-Based Reasoning," The Knowledge Engineering Review (2005), Cambridge University Press, pp. 241-245, 2006.
  5. D. Wettschereck and T. Dietterich, "An Experimental Comparison of the Nearest-Neighbor and Nearest-Hyperrectangle Algorithms," Machine Learning, Vol. 19, No. 1, pp. 1-25, 1995.
  6. Tan S. "Neighbor-Weighted k-Nearest Neighbor for Unbalanced Text Corpus," Expert Systems with Applications, 28(4), pp. 667-671, 2005.
  7. Song, Y., Huang, J., Zhou, D., Zha, H., and Giles, L. "IKNN : Informative K-Nearest Neighbor Pattern Classification," In the Proceedings of PKDD, pp. 248-264, 2007.
  8. 정태선, 이형일, 윤충화, "고정 분할 평균알고리즘을 사용하는 새로운 메모리 기반 추론," 한국정보처리학회논문지, 제6권 제6호, 1563-1570쪽, 1999년.
  9. 이형일, "메모리기반 추론기법에 기반한 점진적 다분할 평균 알고리즘," 한국전기전자학회논문지, 제12권, 제1호, 65-74쪽 2008년.
  10. J.R. Quinlan, "Induction of Decision Trees," Machine Learning, Vol. 1, pp. 81-106, 1986.
  11. 노창현, 조규철, 마용범, 이종식, "의사결정 트리 기법을 이용한 그리드 자원선택 시스템," 한국컴퓨터정보학회논문지, 제13권, 제1호, 1-10쪽, 2008년 1월.
  12. 신성윤, 문형윤, 이양원, "전역적 결정트리를 이용한 샷 경계 검출," 한국컴퓨터정보학회논문지, 제13권, 제1호, 75-80쪽, 2008년 1월.
  13. J.R. Quinlan, "MDL and categorical theories (continued)," Proceedings of 12th International Conference on Machine Learning , 1995, pp. 464-470.
  14. Witten, I. H. & Frank, E.. "Data Mning: Practical Machine Learning Tools and Techniques," Second Edition, Morgan Kaufmann, 2005.
  16. O. L. Mangasarian and W. H. Wolberg. "Cancer diagnosis via linear programming", SIAM News, Vol. 23, NO. 5, pp 1 & 18, Sept. 1990.