제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템

An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles

  • 강현희 (경남대학교 교육대학원 전자계산교육전공) ;
  • 진민 (경남대학교 정보통신공학부)
  • Kang, Hyun-Hee (Computer Science Education, Graduate School of Education, Kyungnam University) ;
  • Jin, Min (Div. of Information and Communication Engineering, Kyungnam University)
  • 발행 : 2003.06.30

초록

현재 일선 학교와 교육기관의 공문서 분류는 아직도 수작업으로 처리되고 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 본 논문은 문서 제목의 단어 정보를 이용한 자동 문서 분류 방법을 제안한다. 먼저 기존 문서의 제목 단어 중에서 의미 있는 단어를 추출하여 각 단어에 대해 범주별로 역문헌 빈도(IDF) 가중치를 계산한 후 단어 가중치 사전을 구축한다. 문서의 분류 요구가 들어오면 구축된 단어 가중치 사전을 이용하여 문서 제목에 포함된 단어들의 범주별 가중치 합을 비교하여, 범주별 가중치 합이 최대인 범주로 문서를 분류한다. 실제 중등학교에서의 공문서를 대상으로 제안된 방법의 분류 성능을 평가하였다.

It takes a lot of time to classify official documents in schools and educational institutions. In order to reduce the overhead, we propose an automatic document classification method using word information of the titles of documents in this paper. At first, meaningful words are extracted from titles of existing documents and Inverse Document Frequency(IDF) weights of words are calculated against each category. Then we build a word weight dictionary. Documents are automatically classified into the appropriate category of which the sum of weights of words of the title is the highest by using the word weight dictionary. We also evaluate the performance of the proposed method using a real dataset of a middle school.

키워드