DOI QR코드

DOI QR Code

The Study on Improvement of Cohesion of Clustering in Incremental Concept Learning

점진적 개념학습의 클러스터 응집도 개선

  • 백혜정 (숭실대학교 대학원 컴퓨터학과) ;
  • 박영택 (숭실대학교 컴퓨터학부)
  • Published : 2003.06.01

Abstract

Nowdays, with the explosive growth of the web information, web users Increase requests of systems which collect and analyze web pages that are relevant. The systems which were develop to solve the request were used clustering methods to improve the duality of information. Clustering is defining inter relationship of unordered data and grouping data systematically. The systems using clustering provide the grouped information to the users. So, they understand the information efficiently. We proposed a hybrid clustering method to cluster a large quantity of data efficiently. By that method, We generate initial clusters using COBWEB Algorithm and refine them using Ezioni Algorithm. This paper adds two ideas in prior hybrid clustering method to increment accuracy and efficiency of clusters. Firstly, we propose the clustering method considering weight of attributes of data. Second, we redefine evaluation functions which generate initial clusters to increase efficiency in clustering. Clustering method proposed in this paper processes a large quantity of data and diminish of dependancy on sequence of input of data. So the clusters are useful to make user profiles in high quality. Ultimately, we will show that the proposed clustering method outperforms the pervious clustering method in the aspect of precision and execution speed.

요즘, 인터넷 등장 이후 폭발적으로 증대되는 웹 정보를 효율적으로 사용하기 위한 시스템들이 요구되고 있다. 이러한 요구를 해결하기 위해 개발된 시스템들은 서비스 정보의 질을 향상시키기 위하여 클러스터링 기법을 이용하고 있다. 클러스터링은 무질서한 데이터들의 상호 연관관계를 정의하고 이를 통하여 보다 체계적으로 데이터를 군집화하는 것이다. 클러스터링을 이용한 시스템은 비슷한 내용을 묶어 사용자에게 제공함으로, 사용자는 보다 효율적으로 정보를 파악할 수 있다. 그래서 이전 연구에서 대량의 데이터를 효율적으로 클러스터링 하기 위하여 통합 클러스터링 방식을 제안하였다. 이 방식은 COBWEB 알고리즘을 이용하여 초기 클러스터를 생성한 후 Etzioni 알고리즘을 이용하여 클러스터링을 생성하는 방식이다. 본 논문은 이러한 기존의 통합 클러스터링 방식의 정확성과 효율성을 높이기 위하여, 다음 두 가지 방식을 제안한다. 첫째, 클러스터할 데이터의 속성의 가중치클 고려한 클러스터링 방식을 제안한다. 둘째, 기존의 클러스터링 방식의 효율성을 지원하기 위하여, 초기 클러스터를 생성하는 평가 함수를 재정의한다. 본 논문에서 제안하는 클러스터링 방식은 방대한 양의 데이터를 효율적으로 처리 할 수 있으며 데이터의 입력 순서의 의존도를 줄여, 데이터를 효과적으로 클러스터, 양질의 사용자 프로파일 구축에 도움을 주게 된다.

Keywords

References

  1. Mark Devaney, Ashwin Ram, 'Efficient Feature Selection in Conceptual Clustring,' Machine Learning: Proceeding of the Fourteenth International Conference, Nashville, 1997
  2. Oren Zamir, Oren Etzioni, Omid Madani and Richard M. Karp, 'Fast and Intuitive Clustering of Web Documents,' KDD'97, 1997
  3. Doug Fisher, 'Interative Opgimization and Simplification of Hierarchical Clusterings,' AI Access foundation and Morgan Kaufmann Publishers, 1996
  4. Gennari, J. H., Langley, P. & Fisher, D. H., 'Models of incremental concept formation,' Artificial Intelligence, 40, pp.11-61, 1989 https://doi.org/10.1016/0004-3702(89)90046-5
  5. Gluck, M & Corter, J., 'Information, uncertainty and the utility of categories,' Proceeding of the Seventh Annual Conference of the Cognitive Science Society, pp.283-287, Irvine,CA : Lawrence Erlbaum, 1985
  6. Hartigan, J. A., 'Clustering Algorighms,' Wiley, New York, 1975
  7. T. M. Mitchell, 'Machine Learning,' McGraw Hill, 1997
  8. Kathleen Mckusick, Kevin Thompson, 'COBWEB/3:A Portable Implementation,' NASA Ames Reserch , Technical Report FIA-90-6-18-2, 1990
  9. Robert R. Korfhage, 'Information Storage and Retrieval,' Wiley Computer Publishing, 1997
  10. Richard C. Dubes and Anil K. Jain., 'Algorithms for Clustering Data,' Prentice Hall, 1988
  11. Wettschereck, D., Aha, D. W. & Mohri,T. 'A review and empirical evalution of feature weighting methods for a class of lazy learning algorithms,' Artificial Intelligence Review, 11, pp.273-314, 1997 https://doi.org/10.1023/A:1006593614256
  12. 양찬범, '웹 에이전트를 위한 통합방식 문서 클리스터링' 숭실대학교 석사학위논문, 1999