Abstract
Most of the existing methods make the index key with every 6 words in every sentence in a document in order to identify copyright infringement between two documents. However, these methods has the disadvantage to take a long time to inspect the copyright infringement because of the long indexing time for the large-scale document. In this paper, we propose a method to select the longest word (called a feature bock) as an index key in the predetermined-sized window which scans a document character by character. This method can be characterized by removing duplicate blocks in the process of scanning a document, dramatically reducing the number of the index keys. The system with this method can find the copyright infringement positions of two documents very accurately and quickly since relatively small number of blocks are compared.
기존 문서 저작물의 저작권 침해 판단 방법은 문서를 처음부터 끝까지 문장 단위로 자른 후, 문장 안에서 6어절 단위로 이동하면서 색인키를 생성하여 비교한다. 그러나 이 방법은 문서의 크기가 클 때 색인키가 대량으로 생산되어 표절 검사의 시간이 길어지는 단점이 있다. 이러한 단점을 제거하기 위하여, 본 논문에서 제안하는 방법은 일정한 크기의 윈도우를 문자 단위로 이동하면서 각 윈도우 내에 있는 가장 큰 어절을 선택하여 특징블록을 색인키로 정하는 것이다. 이 방법은 윈도우를 이동하는 과정에서 중복된 특징 블록을 제거하여 색인키의 수를 획기적으로 줄일 수 있다. 이를 적용한 시스템은, 상대적으로 적게 추출된 특징블록간 유사도를 비교함으로써, 두 문서 저작물사이에서 표절된 저작물의 침해 위치를 정확하고 빠르게 검색할 수 있다.