한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
- /
- Pages.201-204
- /
- 2016
- /
- 2005-3053(pISSN)
문서의 공기관계를 이용하여 국가 R&D 보고서간 유사도 계산
Similarity calculation between national R&D reports using co-occurrence
-
김남훈
(전남대학교 전자컴퓨터공학과) ;
-
주종민
(전남대학교 전자컴퓨터공학과) ;
-
박혁로
(전남대학교 전자컴퓨터공학과) ;
-
양형정
(전남대학교 전자컴퓨터공학과) ;
-
최광남
(한국과학기술정보연구원, NTIS센터)
-
Kim, Nam-Hun
(Chonnam National University, Department of Computer Science) ;
-
Joo, Jong-Min
(Chonnam National University, Department of Computer Science) ;
-
Park, Hyuk-Ro
(Chonnam National University, Department of Computer Science) ;
-
Yang, Hyung-Jeong
(Chonnam National University, Department of Computer Science) ;
-
Choi, Kwang-Nam
(Korea Institute of Science and Technology Information)
- 발행 : 2016.10.07
초록
본 논문에서는 문서의 공기관계를 통해 추출된 문서의 특징을 이용하여 유사 보고서를 판별하는 시스템을 제안한다. 국가 R&D 보고서의 XML형식 파일에서 텍스트를 추출 후, 문장 단위로 나누어 각 문장의 공기 관계를 추출한다. 그 후 공기관계의 노드와 엣지를 문서에 추가하고, 노드로 사용된 단어만 남기고 나머지 단어는 제외한다. 그리고 이것을 문서의 특징으로 삼고 유사도 계산을 한다. 이 때, 유사도 계산은 코사인 유사도를 사용한다. 실험결과, 국가 R&D문서 유사도 계산에서 제안된 방법이 기존의 방법보다 높은 분류율을 보여주었다.