Design and Implementation of Similar Document Merging System

유사 문서 병합 시스템의 설계 및 구현

  • Park, Woo-Ri (Div. of Electronics and Information Engineering, Chonbuk National University) ;
  • Kwon, In-Teak (Div. of Electronics and Information Engineering, Chonbuk National University) ;
  • Kim, Jong-Ik (Div. of Computer Science and Engineering, Chonbuk National University)
  • 박우리 (전북대학교 전자정보공학부) ;
  • 권인택 (전북대학교 전자정보공학부) ;
  • 김종익 (전북대학교 컴퓨터공학부)
  • Published : 2011.06.29

Abstract

인터넷의 지속적인 발전에 따라 다양한 출처와 경로를 통해 많은 정보가 빠른 속도로 생산, 확산되고 있다. 이로 인해 중복되거나 유사한 정보들이 빈번하게 발생되고 있으며, 이러한 문제를 해결하기 위한 내용이 유사한 문서를 찾는 연구들이 많이 진행되고 있다. 유사 문서 병합에서 유사 문서를 판별하기 위해 문서 간 공통된 단어의 비율을 이용한다. 하지만 동일한 단어가 다양한 형태로 표현될 수 있어 공통된 단어의 비율만을 가지고 유사 문서를 판단하기 어렵다. 본 논문에서는 유사한 의미를 갖는 단어들을 동일한 단어로 변환하여 유사 문서들을 병합하는 시스템을 제안하고 구현 사항에 대해 설명한다.

Keywords

Acknowledgement

Supported by : 한국연구재단