Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails

;;;

한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)

한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
/
Pages.271-273
/
2001
/
1598-5164(pISSN)

한국정보과학회 (Korean Institute of Information Scientists and Engineers)

실세계의 FAQ 메일 자동분류를 위한 문서 특징추출 방법의 성능 비교

Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails

홍진혁 (연세대학교 컴퓨터과학과) ;
류중원 (연세대학교 컴퓨터과학과) ;
조성배 (연세대학교 컴퓨터과학과)

발행 : 2001.04.01

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

최근 문서 자동분류의 중요성이 널리 인식되어 다양한 연구가 진행되고 있다. 본 논문에서는 한글 문서의 효과적인 자동분류를 위한 다양한 특징추출 방법들을 구현하고 실제 질의메일에 대한 효율적인 특징주출 방법을 제시한다. 실험을 위해 문서 빈도(document frequency), 정보획득(information gain), 상호 정보량(mutual information), x$^2$등 7가지 특징추출 방법을 사용하였으며 463개의 실제 테스트 질의메일에 적용한 결과, x$^2$ 방법이 74.7%의 인식률을 내어 성능이 가장 좋음을 알 수 있었다. 반면에 x$^2$와 함께 가장 자주 쓰이는 방법 중의 하나인 정보 이득은 인식률이 최대 40.6%밖에 되지 않았다.

한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)

실세계의 FAQ 메일 자동분류를 위한 문서 특징추출 방법의 성능 비교

Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)