Abstract
The knowledge discovery from web has been studied in many researches. There are some difficulties using web log for training data on efficient information predictive models. In this paper, we studied on the method to eliminate sparseness from web log data and to perform web user clustering. Using missing value imputation by Bayesian inference of MCMC, the sparseness of web data is removed. And web user clustering is performed using self organizing maps based on 3-D plot by principal component. Finally, using KDD Cup data, our experimental results were shown the problem solving process and the performance evaluation.
웹으로부터 유용한 정보를 얻기 위한 연구는 현재 많이 진행되고 있다. 본 논문에서는 특히 웹 로그 데이터의 희소성에 대한 문제 해결과 이를 통한 웹 사용자의 군집화 방안에 대하여 연구하였다. MCMC 방법의 베이지안 추론에 의한 결측치 대체 기법을 이용하여 웹 데이터의 희소성을 제거하였고, 주성분에 의한 산점도를 통하여 형상지도의 차원을 결정한 자기 조직화지도를 이용하여 웹 사용자의 군집화를 수행하였다. 제안 기법은 기존의 방법들에 비해 모형의 정확도와 빠른 학습 시간을 제공하여 주었다. KDD Cup 데이터를 이용한 실험을 통하여 제안 방법에 대한 문제 해결 절차 및 성능 평가를 객관적으로 확인하였다.