한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
- /
- Pages.82-89
- /
- 2004
- /
- 2005-3053(pISSN)
한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로
Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect
- 이재성 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과) ;
- 김미숙 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과) ;
- 이영성 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과)
- Lee, Jae-Sung (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University) ;
- Kim, Mi-Suk (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University) ;
- Lee, Young-Sung (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University)
- 발행 : 2004.10.08
초록
본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.
키워드