A Similar Text Detection of Korean Document using Composition Alignment

성분 정렬을 이용한 한글 유사 문서 탐색 방법

  • Park, Sun-Young (Dept. of Computer Science and Engineering, Pusan National University) ;
  • Cho, Hwan-Gue (Dept. of Computer Science and Engineering, Pusan National University)
  • 박선영 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과)
  • Published : 2011.06.29

Abstract

최근 표절에 대한 사회적 관심이 꾸준히 높아지고 있는 가운데, 기계적으로 유사한 문서를 탐색하는 방법에 대한 많은 연구가 이루어지고 있다. 이 중 생물정보학에서 유전자 서열을 분석하기 위해 사용되는 '지역 정렬(local alignment)' 기법은 문서 간 유사 영역을 탐색하는 데에 유용하다. 한편 한글에는 조사가 존재하는데, 이 때문에 한글 문장은 각 품사의 순서에 큰 영향을 받지 않는다. 이러한 한글의 특성을 이용해 기존 문서의 어순만 바꾼 문장을 생성할 경우, 지역 정렬을 이용한 탐색 방법으로는 이를 찾아내기 힘들다. 본 논문에서는 한글의 특성을 고려하여 어순과 관계없이 해당 영역의 유사성을 찾아내는 새로운 한글 유사 문서 탐색 방법을 제시한다. 이를 위하여, 성분 정렬(composition alignment) 기법을 적용한다. 성분 정렬 기법은 생물학에서 생물의 진화 과정이나 돌연변이 DNA 등 서열의 순서가 일부 뒤바뀌는 것을 허용하면서 유사한 시퀀스를 찾는 기법으로 기존의 방법보다 더욱 유연하고 민감한 방법이라 할 수 있다. 이를 적용하여 한글 문서를 탐색한 결과, 일반적인 문장 및 거의 동일한 문장 간의 유사도 점수는 큰 변화가 없었으나, 어순을 바꾼 문장의 경우 기존의 방법보다 평균 35.34% 가량 민감하게 탐색할 수 있었다. 추후 한글에 대한 초성 추출 및 성분 정렬 방법을 응용하여 다단계 구조의 유사 문서 탐색 방법에 대해 연구할 계획이다.

Keywords

Acknowledgement

Supported by : 한국연구재단