DOI QR코드

DOI QR Code

Korean Document Classification Using Extended Vector Space Model

확장된 벡터 공간 모델을 이용한 한국어 문서 분류 방안

  • 이상곤 (전주대학교 컴퓨터공학과)
  • Received : 2010.11.18
  • Accepted : 2011.02.24
  • Published : 2011.04.30

Abstract

We propose a extended vector space model by using ambiguous words and disambiguous words to improve the result of a Korean document classification method. In this paper we study the precision enhancement of vector space model and we propose a new axis that represents a weight value. Conventional classification methods without the weight value had some problems in vector comparison. We define a word which has same axis of the weight value as ambiguous word after calculating a mutual information value between a term and its classification field. We define a word which is disambiguous with ambiguous meaning as disambiguous word. We decide the strengthness of a disambiguous word among several words which is occurring ambiguous word and a same document. Finally, we proposed a new classification method based on extension of vector dimension with ambiguous and disambiguous words.

References

  1. 정경희, "의학 분야 웹 자료의 분류에 대한 개선 방안 연구", 정보관리학회지, 제21권, 제2호, pp.089-106, 2004. https://doi.org/10.3743/KOSIM.2004.21.2.089
  2. 윤성희, 백선욱, "단어 의미 정보를 활용하는 이용자 자연어질의 유형의 효율적 분류", 정보관리학회지, 제21권, 제4호, pp.251-263, 2004.
  3. 이원휘, "K-Means 알고리즘을 이용한 대용량 문서 클러스트링에서 개선된 초기 중심 선정 방법의 제안", 전북대학교 대학원 컴퓨터공학과 박사학위 논문, pp.1-101, 2010.
  4. 안동언 외, 최신 정보검색론, 교보문고, pp.1-514, 2010.
  5. 이상곤 외, "개념 기반 복합 키워드 추출 방법", 한국컴퓨터교육학회 논문지, 제6권, 제2호, pp.23-31, 2003.
  6. 이상곤, "한글 문서 분류용으로 이용할 복합어로 구성된 분야 연상어의 추출법," 정보과학회 논문지: 소프트웨어 및 응용, 제32권, 제7호, pp.636-649, 2005.
  7. 노대욱 외, "정보 검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발," 정보과학회논문지 : 소프트웨어 및 응용, 제34권, 제2호, pp.123-130, 2007.
  8. 양재군, 배재학, 이종혁, "온톨러지 재사용을 위한 범주 재분류", 정보처리학회논문지(B), 제12권, 제1호, pp.69-80, 2005. https://doi.org/10.3745/KIPSTB.2005.12B.1.069
  9. 이원휘 외, "유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템," 정보처리학회논문지(B), 제16권, 제1호, pp.85-92, 2009. https://doi.org/10.3745/KIPSTB.2009.16-B.1.85
  10. 박흠, "확장된 Relief-F 알고리즘을 이용한 소규모 크기 문서의 자동 분류", 정보처리학회논문지(B), 제16권, 제3호, pp.233-238, 2009.
  11. 김판구 외, "상호 정보에 기반한 한국어 텍스트의 복합어 자동색인," 한국정보과학회 논문지, 제21권, 제7호, pp.1333-1340, 1994.
  12. 김명철 외, "시소러스와 상호 정보를 이용한 정보검색 모델", 한국정보과학회 학술발표 논문집, 제21권, 제1호, pp.837-840, 1994.
  13. 전미선 외, "상호 정보를 이용한 어의 모호성 해소에 관한 연구", 제6회 한글 및 한국어 정보처리 학술발표 논문집, pp.369-373, 1994.
  14. 강현규 외, "자연언어 정보검색에서 상호정보를 이용한 2단계 문서 순위 결정 방법", 한국정보과학회 논문지, 제23권, 제8호, pp.852-861, 1996.
  15. 강현수 외, "정보 검색에서 상호 정보를 이용한 용어 확장 및 한정 연구", 한국정보과학회 호남.제주지부 학술발표 논문집, 제10권, 제1호, pp.128-134, 1998.
  16. 이찬도 외, "고품질 바이그램을 이용한 문서 범주화 성능 향상," 정보처리학회 논문지 B, 제9-B권, 제4호, pp.415-420, 2002. https://doi.org/10.3745/KIPSTB.2002.9B.4.415
  17. 최준영 외, "효율적인 바이어그램을 이용한 자동 문서 범주화," 제 19회 한국정보처리학회 춘계 학술대회 논문집, 제10권, 제1호, pp.261-264, 2003.
  18. 박은석, 박현진, 이상곤, "동의어와 유의어 개념에 기반 한 키워드 추출기의 설계 및 구현", 컴퓨터종합학술대회 2007 논문집, 제34권, 제1(C)호, pp.163-166, 2007.
  19. 장정효, 손주성, 이상곤, 안 동 언, "연상 지식을 이용한 문서분류 엔진의 구현", 제25회 정보처리학회 춘계 학술발표대회논문집, 제13권, 제1호, pp.625-628, 2006.
  20. 장정효, 손주성, 김도연, 이상곤, 이원휘, 안동언, "검색과 분류가 동시에 가능한 JULSE 시스템의 설계 및 구현", 제24회 정보처리학회 추계 학술발표대회 논문집, 제12권, 제2호, pp. 673-676, 2005.
  21. 김혜경, 이상곤, "화제인식에 의한 단락별 계산방법의 설계", 컴퓨터종합학술대회 2005 논문집, 제32권, 제1(B)호, pp. 499-501, 2005.
  22. 임수정, 이원휘, 이상곤, "화제출현, 계속, 전환 처리를 이용한 한국어 문서의 단락분할", 제23회 정보처리학회 춘계 학술발표대회 논문집, 제12권, 제1호, pp.737-740, 2005.
  23. 이상곤, "분야연상어를 이용한 화제분야의 계산방법과 단락검색", 정보처리학회논문지(B), 제12권, 제1호, pp.57-68, 2005. https://doi.org/10.3745/KIPSTB.2005.12B.1.057
  24. 이원휘, 김도연, 이상곤, "그래픽컬한 분야인식기의 설계 및 구현", 정보과학회 가을 학술발표 논문집, 제31권, 제2호, pp. 769-771, 2004.
  25. 이원휘, 최현, 이상곤, "분야연상어 추출방법의 설계와 구현", 정보처리학회 2004년도 춘계 학술발표 논문집, 제11권, 제1호, pp.651-654, 2004.
  26. 최현, 황남선, 이상곤, "문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법", 2004년 봄 정보과학회 학술발표 논문집(B), 제31권, 제1호, pp.892-894, 2004.
  27. 김양선, 이상곤, "단어개념에 기반 한 한국어 복합키워드의 추출", 제20회 한국정보처리학회 추계 학술발표 논문집, 제10권, 제2호, pp.477-480, 2003.
  28. 이상곤, 이완권, "분야연상어의 수집과 추출 알고리즘", 정보처리학회 논문지(B), 제10권, 제3호, pp.347-358, 2003. https://doi.org/10.3745/KIPSTB.2003.10B.3.347
  29. 홍성옥, 이상곤, "연상정보를 이용한 단락분할 방법", 2003년도 정보처리학회 춘계 학술발표 논문집(상), 제10권, 제1호, pp. 497-500, 2003.
  30. 이상곤, "분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할방법", 정보처리학회 논문지(B), 제10권, 제1호, pp.57-66, 2003.