효율적인 바이그램을 이용한 자동문서 범주화

Automated Text Categorization using high quality Bigrams

  • 최준영 (대전대학교 정보통신공학과) ;
  • 이찬도 (대전대학교 정보통신공학과)
  • Choi, Joon-Young (Dept,. of Information & Communications Eng., Daejeon Univ.) ;
  • Lee, Chan-Do (Dept,. of Information & Communications Eng., Daejeon Univ.)
  • 발행 : 2003.05.16

초록

본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개발을 목표로 한다. 기존의 문서 범주화 알고리즘의 장단점을 비교하여 개선된 바이그램 추출 알고리즘을 구현하고, 이 알고리즘을 실험한 결과 Reuters-21579 data set은 개별 단어를 사용하여 시험한 결과보다 단어+바이그램을 사용하였을 경우 BEP은 2.07%, F1은 1.40% 향상률을 보였고, Korea-web data set은 BEP의 8.12%, F1의 6.25% 향상을 보였다. 이와 같은 실험결과는 단어를 사용한 경우보다 단어+바이그램을 사용한 자동문서 범주화 시스템이 더 효율적이라는 것을 보여준다.

키워드