(The Classification Method of the Document Plagiarism Similarity based on Similar Syntagma Tree and Non-Index Term)

유사 어절 트리와 비 색인어 기반의 문서 표절 유사도 분류 방법

  • 천승환 (전남대학교 전산학과) ;
  • 김미영 (담양대학 인터넷 IT 공학부) ;
  • 이귀상 (전남대학교 전산학과, 정보통신연구소)
  • Published : 2002.08.01

Abstract

It is difficult and laborious to distinguish between the original and the plagiarism about the electrical documents or on-line received documents, specially student homeworks because in many case, the homeworks are written on the same subject. Existing methods are not appropriate to solve this problem, which find the most appropriate category using the expression frequency of index term in documents to be classified. In this paper, a new classification method was proposed to distinguish between the original and the plagiarism about documents which were written similarly which is based on the syntagma vector - except the similar syntagma tree structure and non-index term.

전자문서와 온라인으로 수신된 문서들은 표절 여부를 판별하기가 매우 어렵고 번거로운 일이다. 특히 학생들에게 부여된 과제물의 경우 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 분류하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 카테고리를 찾는 기존의 방법들과는 전혀 다른 문제이다. 본 논문에서는 어절들의 -유사 어절 트리 구조와 색인어를 제외한 어절- 벡터를 기반으로 하여 비슷하게 작성된 문서들의 표절 판별을 목적으로 하는 작업에 적용될 수 있는 방법을 제안한다.

Keywords