DOI QR코드

DOI QR Code

System Implement to Identify Copyright Infringement Based on the Text Reference Point

텍스트 기준점 기반의 저작권 침해 판단 시스템 구현

  • Received : 2015.01.09
  • Accepted : 2015.02.13
  • Published : 2015.02.28

Abstract

Most of the existing methods make the index key with every 6 words in every sentence in a document in order to identify copyright infringement between two documents. However, these methods has the disadvantage to take a long time to inspect the copyright infringement because of the long indexing time for the large-scale document. In this paper, we propose a method to select the longest word (called a feature bock) as an index key in the predetermined-sized window which scans a document character by character. This method can be characterized by removing duplicate blocks in the process of scanning a document, dramatically reducing the number of the index keys. The system with this method can find the copyright infringement positions of two documents very accurately and quickly since relatively small number of blocks are compared.

기존 문서 저작물의 저작권 침해 판단 방법은 문서를 처음부터 끝까지 문장 단위로 자른 후, 문장 안에서 6어절 단위로 이동하면서 색인키를 생성하여 비교한다. 그러나 이 방법은 문서의 크기가 클 때 색인키가 대량으로 생산되어 표절 검사의 시간이 길어지는 단점이 있다. 이러한 단점을 제거하기 위하여, 본 논문에서 제안하는 방법은 일정한 크기의 윈도우를 문자 단위로 이동하면서 각 윈도우 내에 있는 가장 큰 어절을 선택하여 특징블록을 색인키로 정하는 것이다. 이 방법은 윈도우를 이동하는 과정에서 중복된 특징 블록을 제거하여 색인키의 수를 획기적으로 줄일 수 있다. 이를 적용한 시스템은, 상대적으로 적게 추출된 특징블록간 유사도를 비교함으로써, 두 문서 저작물사이에서 표절된 저작물의 침해 위치를 정확하고 빠르게 검색할 수 있다.

Keywords

References

  1. Analysis Report on Copyright Protection, "The type of copyright infringement offence : Comparative analysis of the intellectual property laws" Korea Federation of Copyright Organizations, 2013
  2. "Annual Report on Copyright Protection", Korea Federation of Copyright Organizations, 2013
  3. Myeong-Gi Chae "Copyright issues on the Internet" Korean Institute of Information Scientists and Engineers 21.Vol.30 N0.10.p.21-28
  4. Yong-Jun Hwang "Adaboost-based Gesture Recognition Using Time Interval Window Applied Global and Local Feature Vectors"
  5. Benjamin Hummel, Elmar Juergens, Deniela Steidl, "Index-Based Model Colene Detection" IWSC '11 Proceedings of the 5th International Workshop on Software Clones, pp.21-27, 2011
  6. Sung-Jick Lee, Han-Joon Kim, "Keyword Extraction from news Corpus Using Modified TF-IDF, "Society for E-business Studies", 2009
  7. Yoon-Ho Kim*, Seong-Hwan Cho** "A Study on the Linkage and integration of UCI (Universal Content Identifier) between ICN (Integrated Copyright Number)" IIBC VOL. 14 No. 5, October 201