퍼지 성능 측정자를 이용한 적응 데이터 마이닝 모델

Adaptive Data Mining Model using Fuzzy Performance Measures

  • 이현숙 (동양공업전문대학 전산정보학부)
  • 발행 : 2006.10.30


데이터 마이닝은 방대한 양의 데이터를 다루는 응용영역에서 학습과 함께 연구되어 실세계의 문제를 해결할 수 있는 구체적인 방법을 제시해 주고 있다. 데이터 마이닝을 위한 보편적인 방법으로 사용되어 온 클러스터 분석 방법은 데이터의 양이 많아질수록, 실세계에서 직접 얻은 데이터일수록 경계가 불분명하고 처리과정에서 많은 오차가 발생하게 되어 직접 적용하고자할 때 고려해야할 점이 많다. 이를 위하여 퍼지 개념이 도입된 퍼지 클러스터링 방법론은 클러스터 타당성문제와 함께 널리 연구되어왔다. 본 논문에서는 클러스터링의 결과가 만들어 내는 오류 값을 최소화하는 방향으로 학습하는 비교사 학습신경망에 의하여 클러스터링이 이루어지고 이를 퍼지 성능 측정자에 의하여 평가하면서 최적의 클러스터 수를 찾아가는 적응형 데이터 마이닝 모델을 제안하고자 한다 또한 뉴스그룹의 텍스트 데이터를 처리하여 문서분류에 활용할 수 있음을 보임으로 제안된 모델의 타당성을 확인하고자 한다.

Data Mining is the process of finding hidden patterns inside a large data set. Cluster analysis has been used as a popular technique for data mining. It is a fundamental process of data analysis and it has been Playing an important role in solving many problems in pattern recognition and image processing. If fuzzy cluster analysis is to make a significant contribution to engineering applications, much more attention must be paid to fundamental decision on the number of clusters in data. It is related to cluster validity problem which is how well it has identified the structure that Is present in the data. In this paper, we design an adaptive data mining model using fuzzy performance measures. It discovers clusters through an unsupervised neural network model based on a fuzzy objective function and evaluates clustering results by a fuzzy performance measure. We also present the experimental results on newsgroup data. They show that the proposed model can be used as a document classifier.



  1. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy., 'Advances in Knowledge Discovery and Data Minng'. AAAI/MIT Press, 1995
  2. Cabena, Hadjinian, Stadler, Verhees, Zanasi, 'Discovering Data Mining From Concept to Implementation', Prentice-Hall, 1997
  3. Robert Groth, 'Data Mining', Prentice Hall PTR, 2000
  4. Chin-Teng Lin, 'Support-Vector-Based Fuzzy Neural Network for Pattern Classification', IEEE Transactions on Fuzzy Systems, Vol.14, No.1, Feb., 2006
  5. Rabunal, J. Ramon and Dorrado, Julian, 'Artificial Neural Networks in Real-life Applicatons', Idea Group, 2005
  6. Hyun-Sook Rhee and Kyung-Whan Oh, 'A Design and Analysis of Objective Function-Based Unsupervised Neural Networks for Fuzzy Clustering', Neural Processing Letters Vol.4, 1996, p.83
  7. L. A. Zadeh, 'Fuzzy Sets', Information and Control 8, 1965
  8. J. C. Bezdek, 'Pattern Recognition with Fuzzy Objective Function Algorithms', Plenum press, New York, 1981
  9. Jian Yu and Miin-Shen Yang, 'Optimality Test for Generalized FCM and Its Application to Parameter Selection', IEEE Transactions on Fuzzy Systems, Vol.13, No.1, Feb., 2005
  10. Xuanli Lisa Xie and Gerado Beni, 'A Validity Measure for Fuzzy Clustering', IEEE Trans. on Pattern Anal. Machine Intell., vol. PAMI-13, no.8, 1991
  11. KDD 20 Newsgroups Data,
  12. Thorsten Joachims, 'A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization', Tech. rep., Carnegie Mellon University, 1996
  13. Soumen Chakrabarti, 'Data mining for hypertext: A tutorial survey', SIGKDD Explorations, 2000
  14. 최윤정, 박승수, '학습방법 개선과 후처리분석을 이용한 자동문서분류의 성능향상 방법', 정보처리학회논문지, Vol.12-B, No.7, Dec., 2005
  15. W. N. Street and Y. S. KIm, 'Streaming ensemble algorithm(SEA) for large-scale classification', Proc. of 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.377-382, San Francisco, California, 2001

피인용 문헌

  1. An Adaptive Classification Model Using Incremental Training Fuzzy Neural Networks vol.16, pp.6, 2006,