DOI QR코드

DOI QR Code

Gathering Common-word and Document Reclassification to improve Accuracy of Document Clustering

문서 군집화의 정확률 향상을 위한 범용어 수집과 문서 재분류 알고리즘

  • 신준철 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
  • 이응봉 (충남대학교 문헌정보학과)
  • Received : 2011.08.05
  • Accepted : 2011.12.07
  • Published : 2012.02.29

Abstract

Clustering technology is used to deal efficiently with many searched documents in information retrieval system. But the accuracy of the clustering is satisfied to the requirement of only some domains. This paper proposes two methods to increase accuracy of the clustering. We define a common-word, that is frequently used but has low weight during clustering. We propose the method that automatically gathers the common-word and calculates its weight from the searched documents. From the experiments, the clustering error rates using the common-word is reduced to 34% compared with clustering using a stop-word. After generating first clusters using average link clustering from the searched documents, we propose the algorithm that reevaluates the similarity between document and clusters and reclassifies the document into more similar clusters. From the experiments using Naver JiSikIn category, the accuracy of reclassified clusters is increased to 1.81% compared with first clusters without reclassification.

정보검색에서 많은 검색 결과 문서들을 효율적으로 다루기 위해 군집화 기술을 사용하고 있지만, 대체로 군집화의 정확률은 일부 영역에서만 요구 사항을 만족시키고 있다. 본 논문에서는 검색 결과 문서들의 군집화 정확률을 향상시키기 위한 두 가지 방법을 제안한다. 첫째는 군집화 과정에서 흔히 쓰이지만 낮은 가중치를 가진 범용어를 정의하고, 검색 결과들을 비교하여 범용어를 자동 수집하고 그의 가중치를 계산하는 방법을 제안한다. 실험 결과 불용어에 비해 범용어를 사용했을 때 군집화 오류의 34%가 개선되었다. 둘째는 집단평균연결 방식의 군집화 알고리즘으로 일차 군집들을 생성 후, 문서와 군집 간의 유사도를 측정하여 가장 유사도가 높은 군집으로 문서를 재분류하는 알고리즘을 제안한다. 네이버 지식인 카테고리를 이용한 군집 결과의 비교 실험을 통해 일차 군집보다 재분류된 군집의 정확률이 1.81% 향상되는 것을 확인하였다.

Keywords

References

  1. 네이버 뉴스 클러스터링, http://news.search.naver.com/newscluster/
  2. Carrot2 Clustering Engine. http://search.carrot2.org
  3. 김판구 외. 한국어 정보 검색을 위한 불용어의 구성 및 적용, 한국정보과학회 봄 학술발표논문집 제20권 제1호, pp.809-812, 1993.
  4. 권호경 외. 통계정보를 이용한 가중치 부여 불용어 사전의 구성, 한국정보과학회 봄 학술발표논문집 제23권 제1호(A), pp.903-906, 1996.
  5. 김영수 외. 등급에 따른 웹 유해 문서 분류 기술. 한국정보처리학회, 13C(7): pp.859-864, 2006.
  6. 정하용 외. 특허 분류를 위한 효과적인 자질 선택, 한국정보과학회 가을 학술발표 문집(II)제32 제2호, pp.670-672, 2005.
  7. 이문기 외. 웹 디렉토리 서비스를 위한 문서 클러스터링, 한국정보과학회 봄 학술발표논문집 제27권 제1호(B), pp.351-353, 2000.
  8. 박선 외. 비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류, 한국정보과학회논문지, 37(5): pp.347-417, 2010.
  9. 황태호 외. 점진적 알고리즘을 이용한 웹 문서 클러스터링 시스템의 설계 및 구현, 한국정보과학회 가을 학술발표논문집, 26(2-1): pp.207-209, 1999.
  10. 주길홍 외. 효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서 클러스터링, 컴퓨터교육학회논문지, 1(3): pp.67-80, 2008.
  11. 윤보현 외. 자동 문서 클러스터링을 위한 디스크립터 추출 방안, 정보처리학회 춘계학술대회 논문집, pp.230-233, 2000.
  12. 윤보현 외. 검색결과의 브라우징을 위한 계층적 클러스터링, 한국정보과학회 봄 학술발표논문집, 27(1): pp.342-344, 2000.
  13. Mark Sinka, David Corne. A Large Benchmark Dataset for Web Document Clustering. Soft Computing Systems: Design, Management and Applications. Volume 87 of Frontiers in Artificial Intelligence and Applications. 2002.
  14. Lo, Rachel Tsz-Wai 외. Automatically building a stopword list for an information retrieval system, Journal of Digital Information Management, 3(1). 2005.
  15. Fazli Can, Edward A. Fox, Cory D. Snavely and Robert K. France. Incremental clustering for very large document databases: Initial MARIAN Experience, Information Sciences Vol.84, Issues1-2, pp.101-114, May, 1995. https://doi.org/10.1016/0020-0255(94)00111-N
  16. Oren Zamir and Oren Etzioni. Web document clustering: a feasibility demonstration. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. pp.46-54, 1998.