Measurement of Document Similarity using Term/Term-pair Features and Neural Network

단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정

  • 김혜숙 (전남대학교 전자계산학과) ;
  • 박상철 (전남대학교 전자계산학과) ;
  • 김수형 (전남대학교 전자컴퓨터정보통신공학부)
  • Published : 2004.12.01

Abstract

This paper proposes a method for measuring document similarity between two documents. One of the most significant ideas of the method is to estimate the degree of similarity between two documents based on the frequencies of terms and term-pair, existing in both the two documents. In contrast to conventional methods which takes only one feature into account, the proposed method considers several features at the same time and meatures the similarity using a neural network. To prove the superiority of our method, two experiments have been conducted. One is to verify whether the two input documents are from the same document or not. The other is a problem of information retrieval with a document as the query against a large number of documents. In both the two experiments, the proposed method shows higher accuracy than two conventional methods, Cosine similarity measurement and a term-pair method.

본 논문은 두 문서간 유사도 측정 방법을 제안한다. 제안한 유사도 측정 모델의 주안점은 문서간 관련성의 정도를 두 문서간 일치하는 단어(term)및 단어쌍(tenn-phrase)에 기반하여 이들이 해당 문서에서 차지하는 가중치를 통해 측정하는 것이다. 유사도 측정 과정에 영향을 미치는 특징을 설계함에 있어 기존의 연구들이 하나의 특징만을 고려하였던 것에 비하여 본 논문은 여러 가지 특징들을 고려한다 즉, 단어뿐만 아니라 단어쌍과 관련된 특징을 결합하여 신경망을 통해 유사도를 측정한다. 제안된 방법의 우수성을 입증하기 위해 두 가지 측면에서 실험하였다. 첫 번째는 두 문서의 동일성 여부를 검증하는 문제이며, 두 번째는 다수의 문서를 대상으로 유사한 문서를 찾는 검색 문제이다. 이 두 가지 실험 모두에서 제안 방법이 기존의 Cosine 유사도 계산 방법 및 구색인 방법에 비해 우수한 성능을 보였다.

Keywords

References

  1. 허준희, 고수정, 김태용, 최준혁, 이정현, '문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류: 베이지안 분류자', 한국정보과학회 가을 학술발표 논문집, Vol. 26, No. 2, pp. 154-156, 1999
  2. Y. Maarek, D. Berry and G. Kaiser, 'An Information Retrieval Approach For Automatically Construction Software Libraries,' IEEE Transaction on Software Engineering, Vol. 17, No. 8, pp. 800-813, August 1991 https://doi.org/10.1109/32.83915
  3. 오효정, 맹성현, '점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 방법', 정보과학회논문지 소프트웨어 및 응용 제29권 제7호, pp. 498-509, 2002
  4. S. Park, and J. Palmer, 'Automated Support to System Modeling from Informal Software Requirements,' Proceedings of the 6th International conference on Software Engineering and Knowledge Engineering and Knowledge Engineering, June 1994
  5. 박수용, 서정연, 김학수, 고영중, '유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현', 정보과학회 논문지 제27권 제1호, pp. 13-23, 2000
  6. 강현규, '정보 검색', 정보처리 논문지 제5권 제5호, pp. 37-47, 1998
  7. 이재윤, 최보영, 정영미, '문헌 자동분류에서 용어 가중치 기법에 대한 연구', 제7회 한국정보관리학회 학술대회 논문집, pp. 41-44, 2000
  8. G. Salton and M.J. McGill, Introduction to Modern Information Retrieval (Computer Series), New York: McGraw-Hill, 1983
  9. 김명철, 김덕봉, 김유성, 김재훈, 박혁로, 이하규, 최신정보검색론, 흥릉과학출판사, 2001
  10. L. D. Baker and A. K. McCallum, 'Distributional Clustering of Words for Text Classification,' Proceedings of SIGIR'98, pp. 96-103, 1998 https://doi.org/10.1145/290941.290970
  11. 정준호, 김미진, 이현주, 박미성, 이상조, '문서 요약 시스템을 위한 수사 구조 트리 생성', 한국정보과학회 가을 학술발표 논문집, Vol. 26. No. 2, pp. 175-177, 1999
  12. M. Hajime, H. Takeo and O. Manabu, 'Text Segmentation with Multiple Surface Linguistic Cues,' Proceedings of the COLING-ACL' 98, pp. 881-885, August 1998 https://doi.org/10.3115/980691.980714
  13. A. Jobbins and L. Evett, 'Text Segmentation Using Reiteration and Collocation,' Proceedings of the COLING-ACL'98, pp. 614-618, August 1998 https://doi.org/10.3115/980451.980947
  14. H. Kozima, 'Text Segmentation Based on Similarity between Words,' Proceedings of ACL'93, pp. 286-288, January 1993 https://doi.org/10.3115/981574.981616
  15. D. Litman and R. Passonneau, 'Combining Multiple Knowledge Sources for Discourse Segmentation,' Proceedings of the 33rd ACL, May 1995 https://doi.org/10.3115/981658.981673
  16. A.I. Mel'cuk, Dependency Syntax: Theory and Practice, State Univ. of New York Press, 1988
  17. 박수용, 서정연, 고영중, 강기선, 김재선, '요구사항 문장 범주화를 이용한 웹 기반의 요구 사항 추출 지원 시스템,' 정보과학회 논문지 제27권 제4호, 2000
  18. P. Hellwig, 'Dependency Unification Grammar,' Proceedings of Colling86, pp. 195-198, 1986 https://doi.org/10.3115/991365.991423
  19. Y. Yaari, 'Segmentation of Expository Texts by Hierarchical Agglomerative Clustering,' Proceedings of Ranlp'97, pp. 135-142, September 1997
  20. Y. Yang, 'An evaluation of statistical approaches to text categorization,' Information Retrieval Journal, May, 1999
  21. 김명철, '공기기반 용어간 유사도를 이용한 정보검색 질의 확장 비교 연구', 박사논문, 한국과학기술원, 1999
  22. Y. Karov and S. Edelman, 'Similarity-based Word Sense Disambiguation,' Computational Linguistics, Vol. 24, No. 1, pp. 41-60, March 1998