한국컴퓨터정보학회:학술대회논문집 (Proceedings of the Korean Society of Computer Information Conference)
- 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
- /
- Pages.499-502
- /
- 2010
문서구조 정보 기반의 유사도 측정
A Similarity Evaluation using Structural Information of Documents
- Shin, Mi-Hae (Dept. of Computer Science, KongJu University) ;
- Ko, Bang-Won (Dept. of Computer, SoongSil University) ;
- Kim, Young-Chul (Dept. of e-Business, Yuhan University) ;
- Jeong, Jin-Yeong (Dept. of Bio Information)
- 발행 : 2010.07.08
초록
인터넷의 발달로 인한 수많은 정보의 공유는 지식 정보사회의 발전을 가져왔다. 이러한 정보사회의 발전과 동시에 표절과 같은 새로운 지식 범죄도 급증하고 있다. 표절은 연구의 정직성과 창의성을 떨어뜨리고 학문의 발전을 저해하는 요소이다. 이러한 표절을 근절하기 위해서 그동안 많은 방법들과 시스템들이 제시되었다. 이중 자연어로 구성된 구조가 없는 일반 문서의 표절을 검사하는 방법은 지문법을 이용하였다. 지문법과 같이 통계적인 방법을 이용한 유사도 검사 방법은 문서 대 문서 전체를 비교하기 때문에 부분적 유사성, 즉 문장이나 문단 단위의 비교를 할 수 없는 단점이 있다. 본 논문에서 제시하는 시스템은 자연어로 이루어진 일반문서 중 특별한 문서의 구조 정보를 가질 수 있는 일반 텍스트 문서를 대상으로 유사도를 측정하였다. 즉 텍스트 문서 구조를 AST 형태의 자료구조로 표시하고 이를 이용하여 사용자가 원하는 부분 또는 전체 유사도 측정 방법을 제시한다.