A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm

자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구

  • 서휘 (창원전문대학 문헌정보과)
  • Published : 2008.12.30

Abstract

This is to develop Intelligent Retrieval System which can automatically present early query's category terms(association terms connected with knowledge structure of relevant terminology) through learning function and it changes searching form automatically and runs it with association terms. For the reason, this theoretical study of Intelligent Automatic Indexing System abstracts expert's index term through learning and clustering algorism about automatic classification, text mining(categorization), and document category representation. It also demonstrates a good capacity in the aspects of expense, time, recall ratio, and precision ratio.

본 연구의 목적은 이용자의 탐색 행태, 시스템의 정보 구축 행태를 기반으로 초기 질의어의 범주에 해당하는 연관 용어들(해당 용어의 지식구조와 관련된 연관 용어들)을 학습기능을 통해 자동으로 제시해 줄 수 있는 지능형 검색 시스템을 구현하는 것이다. 이를 위해 학습을 통해 전문가 수준의 색인어를 추출할 수 있는 지능형자동색인 알고리즘, 자동분류에 관련한 클러스터링 알고리즘과 문서 범주화 알고리즘 그리고 범주 표현 알고리즘에 대한 이론적 연구를 수행하였으며, 이들 이론적 연구를 근거로 비용과 시간적인 측면에서 그리고 재현율과 정도율이란 측면에서 우수한 성능을 발휘할 수 있는 지능형검색시스템을 구현하였다.

Keywords

References

  1. 강승식, '한글 문서의 색인어와 색인 기법,' 정보과학회지. 제22권 제4호(2004. 12), pp.72-77
  2. 서휘, '클러스터링을 이용한 시소러스 브라우저의 설계에 관한 이론적 연구,' 한국도서관.정보학회지, 제30권 제3호(1999. 9), pp.427-456
  3. 서휘, '자동정보검색을 위한 한글 시소러스 브라우저 구축에 관한 연구,' 한국도서관.정보학회지, 제31권 제2호 (2000. 6), pp.279-302
  4. 서휘, '자연어를 이용한 자동정보검색시스템 구축에 관한 연구,' 한국문헌정보학회지, 제35권 제4호(2001. 12), pp,141-160
  5. 강현규, '개념 검색어 확장을 통해 질의 형식화를 도와주는 개념 마법사의 설계 및 구현,' 정보처리학회논문지, 제9-B권 제4호 (2002. 12), pp.437-444
  6. F, Sebastiani, 'Machine learning in automated text categorization,' ACM Computing Surveys, Vol.34, No.1 (2002.3), pp.1-47 https://doi.org/10.1145/505282.505283
  7. 심경, '문헌범주화에서 학습문헌수 최적화에 관한 연구,' 정보관리학회지, 제23권 제4호(2006. 12), pp.277-294
  8. Dumais, Susan et al. 'Inductive learning algorithms and representations for text categorization,' Proceedings of ACM-CIKM 1998. pp.148-155.(online). [cited 2008. 10. 29]
  9. 정영미, 임혜영, 'SVM분류기를 이용한 문서 범주화 연구,' 정보관리학회지, 제17권 제4호(2000. 12), pp.229-248
  10. Peter, Jakson, & Isabelle Moulinier. Natural Language Processing for Online Applications : Text Retrieval, Extraction and Categorization. Amsterdam : John Benjamins Publishing Co.
  11. B. Liu, Y. Dai, X. Li, W. S. Lee & P. S. Yu, 'Building text classifiers using positive and unlabeled examples,' Proceedings of the Third IEEE International Conference on Data Mining(ICDM-03), pp.179-188
  12. 김판준, 이재윤, '문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구,' 정보관리학회지, 제24권 제1호 (2007. 3), pp.251-271
  13. 고영중, 서정연, '문서관리를 위한 자동문서범주화에 대한 이론 및 기법.' 정보관리연구. 33권 제2호 (2002. 6) pp.19-32.(online). [cited 2008. 10. 29]
  14. 국민상, 정영미, '자질 선정에 따른 Naive Bayesian 분류기의 성능비교,' 한국정보관리학회 학술대회논문집, 제7권 (2000.8), pp.33-36
  15. Susan. Dumais, et al. 'Inductive learning algorithms and representations for text categorization,' Proceedings of ACM-CIKM 1998. pp.148-155.(online). [cited 2008. 10. 29]
  16. 정영미, 임혜영, 'SVM분류기를 이용한 문서 범주화 연구,' 정보관리학회지, 제17권 제4호(2000. 12), pp.229-248
  17. 고영중, 서정연 (2002), '문서관리를 위한 자동문서범주화에 대한 이론 및 기법.' 정보관리연구. 33권 제2호 (2002. 6) pp.19-32.(online). [cited 2008. 10. 29]
  18. Y. Yang, 'Expert Network : Effective and Efficient Learning from Human Decisions in Text Categorization and Retrieval,' SIGIR'94. 13-22
  19. 이영숙, 정영미, 'KNN 분류기의 범주할당 방법 비교 실험,' 한국정보관리학회 학술대회논문집, 제7권(2000.8), pp.37-40
  20. Gerald Salton, Dynamic Information and Library Processing(New-jersey : Prentice-Hall, 1975), p.329
  21. 서휘, '클러스터링을 이용한 시소러스 브라우저의 설계에 관한 이론적 연구,' 한국도서관.정보학회지, 제30권 제3호(1999. 9), pp.427-456
  22. 이재윤, '문헌간 유사도를 이용한 SVM 분류기의 문헌분류성능 향상에 관한 연구,' 정보관리학회지, 제22권 제3호(2005. 9), pp.261-287
  23. 한승희, 정영미, '클러스터링 기법을 이용한 개별문서의 지식구조 자동 생성에 관한 연구,' 정보관리학회지, 제21권 제3호(2004. 9), pp.251-267
  24. T. Yu Clement, 'A Clustering Algorith Based on User Queries,' JASIS, Vol.25. No,4(1974), pp.218-226 https://doi.org/10.1002/asi.4630250403
  25. 서휘, '자동정보검색을 위한 한글 시소러스 브라우저 구축에 관한 연구,' 한국도서관.정보학회지, 제31권 제2호 (2000. 6), pp.279-302
  26. 서휘, '자연어를 이용한 자동정보검색시스템 구축에 관한 연구,' 한국문헌정보학회지, 제35권 제4호(2001. 12), pp,141-160
  27. 서휘, '클러스터링을 이용한 시소러스 브라우저의 설계에 관한 이론적 연구,' 한국도서관.정보학회지, 제30권 제3호(1999. 9), pp.427-456
  28. Gerald Salton, Dynamic Information and Library Processing(New-Jersey : Prentice-Hall, 1975), pp.353-357
  29. Van Rijisbergen, C. J. The Hyper-Textbook of the C, J. Van Rijsgergen's textbook on Information Retrieval. 1998. [cited2008. 11. 10]
  30. Helen J. Peat, and Peter. Willett, 1991. 'The Limitations of Term Co-Occurrence Data for Query Expansion in Document Retrieval Systems,' JASIS, Vol.42 No.5(1991), pp.378-383 https://doi.org/10.1002/(SICI)1097-4571(199106)42:5<378::AID-ASI8>3.0.CO;2-8
  31. 노정순, 1999, '탐색결과에 근거한 자연어질의 자동확장 및 응용에 관한 연구 고찰,' 정보관리학회지, Vol.16 No.2 (1999. 6), pp.49-80
  32. 남영신 편, 우리말 분류사전(3) : 꾸밈씨 기타 편(서울 : 한강문화사, 1992)
  33. 서휘, '클러스터링을 이용한 시소러스 브라우저의 설계에 관한 이론적 연구,' 한국도서관.정보학회지, 제30권 제3호(1999. 9), pp.427-456
  34. 김성희, 'WWW상의 지능형 정보검색을 위한 기계학습 알고리즘 구현에 관한 연구,' 정보관리학회지, 제17권 제2호(2000.6), pp.189-203