A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템

  • 김진수 (인하대학교 전자계산공학과) ;
  • 김태용 (문경대학 인터넷정보계) ;
  • 최준혁 (김포대학 컴퓨터계열 소프트웨어전) ;
  • 임기욱 (선문대학교 산업공학) ;
  • 이정현 (인하대학교 컴퓨터공학부)
  • Published : 2004.05.01

Abstract

Because web documents become creation and disappearance rapidly, users require the recommend system that offers users to browse the web document conveniently and correctly. One largely untapped source of knowledge about large data collections is contained in the cumulative experiences of individuals finding useful information in the collection. Recommendation systems attempt to extract such useful information by capturing and mining one or more measures of the usefulness of the data. The existing Information Filtering system has the shortcoming that it must have user's profile. And Collaborative Filtering system has the shortcoming that users have to rate each web document first and in high-quantity, low-quality environments, users may cover only a tiny percentage of documents available. And dynamic recommendation system using the user browsing pattern also provides users with unrelated web documents. This paper classifies these web documents using the similarity between the web documents under the web document type and extracts the user browsing sequential pattern DB using the users' session information based on the web server log file. When user approaches the web document, the proposed Dynamic recommendation system recommends Top N-associated web documents set that has high similarity between current web document and other web documents and recommends set that has sequential specificity using the extracted informations and users' session information.

웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

Keywords

References

  1. Stephen C. Gates, Charu C. Aggarwal, 'Recommender System: Knowlege from Mining User Experiences,' IBM Research Report, 1999
  2. B. Mobasher, et al., 'Automatic Personalization on Web Usage Mining,' Technical Report TR99-010, Department of Computer Science, Depaul University, 1999
  3. U. Shardanand and P. Maes, 'Social information filtering : algorithms for automating 'word mouth',' Proc. of ACM CHI Conference, 1995 https://doi.org/10.1145/223904.223931
  4. J. Konstan, et al., 'GroupLens: applying collaborative filtering to usenet news,' Communications of the ACM, (40) 3, 1998 https://doi.org/10.1145/245108.245126
  5. Sarwar, B. et al., 'Using Filtering Agents to Improve Prediction Quality in the GroupLens Research Collaborative Filtering System,' Proc. ACM CSCW 98, pp. 345-354, 1998 https://doi.org/10.1145/289444.289509
  6. Tak Woon Yan et al., 'From user access patterns to dynamic hypertext linking,' Computer Networks an ISDN Systems, 28, pp. 1007-1014, 1996 https://doi.org/10.1016/0169-7552(96)00051-7
  7. J. Srivastava, R. Cooley, M. Deshpande, P.-T. Tan, 'Web Usage Mining: Discovery and Applicatons of Usage Patterns from Web Data,' SIGKDD Explorations, (1) 2, 2000 https://doi.org/10.1145/846183.846188
  8. 박영규, 연관 웹 문서 분류와 브라우징 순차 패턴을 이용한 동적 링킹 시스템, 인하대학교 대학원 공학 석사 학위 논문, 2000
  9. B. Mobasher, N. Jain, E. Han and J. Srivastava, 'Web mining: Pattern discovery from world wide web transactions,' Technical Report TR 96-050, University of Minnesota, Dept. of Computer Science, Minneapolis, 1996
  10. R. Agrawal and R. Srikant, 'Mining Sequential Patterns,' Proc. of the Int'l Conference on Data Engineering (ICDE), Taipei, Taiwan, March 1995
  11. G. Karypis, R. Aggarwal, V. Kumar, and S. Shekhar, 'Multilevel hypergraph partitioning: Application in VLSI domain,' In Proceedings ACM/IEEE Design Automation Conference, 1997 https://doi.org/10.1145/266021.266273
  12. 정영미, 정보검색론, 구미무역 출판부, 1993
  13. R. Cooley, et al., 'Data Preparation for Mining World Wide Web Browsing Patterns,' Knowledge and Information Systems, Vol. 1-1, 1999
  14. J. S. Park, et al., 'Using a Hash-Based Method with Transaction Trimming for Mining Association Rules,' TKDE, 9(5), pp. 813-825, 1997 https://doi.org/10.1109/69.634757
  15. P. Pirolli, J. Pitkow, and R. Rao, 'Silk from a sow's ear: Extracting usable structures from the Web,' Proc. of 1996 Conference on Human Factors in Computing Systems(CHI-96), Vancouver, British Columbia, Canada, 1996 https://doi.org/10.1145/238386.238450
  16. 김진수, 김태용, 이정현, '웹 문서 형식과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템', 제28회 한국정보과학회 춘계학술발표 논문집(B), pp. 274-276, 2001
  17. 전미선, 박세영, '상호 정보를 이용한 어의 모호성 해소에 관한 연구', 제6회 한글 및 한국어 정보처리 학술발표 논문집, pp. 369-373, 1994
  18. T. Tokunaga and M. Iwayama, 'Text categorization based on weighted inverse document frequency,' IPSJ SIG Report, NL100 (5), 1994
  19. R. Agrawal and R. Srikant, 'Fast Algorithm for Mining Association Rules,' Proc. of the 20th VLDB Conference, pp. 487-499, 1994
  20. Yang, Y., and Liu, X. 'A Re-examination of Text Categorization Methods,' In Proceedings of ACM SIGIR'99 conference, pp. 42-49, 1999 https://doi.org/10.1145/312624.312647
  21. Proceedings of ACM SIGIR'99 conference A Re-examination of Text Categorization Methods Yang,Y.;Liu,X.