주성분 분석을 이용한 문서 주제어 추출

Document Thematic words Extraction using Principal Component Analysis

  • 발행 : 2002.10.01

초록

본 논문에서는 문서의 내용을 대표할 수 있는 주제어를 추출하는데 있어 다변량 통계 분석 기법 중의 하나인 주성분 분석을 이용하는 모델을 제안한다. 제안한 모델은 고유값과 고유벡터를 이용하여 문서 자체내의 단어의 흐름을 파악한 후 주제어를 추출하는 방법이다. 제안한 모델을 문서 요약에 적용하여 그 성능을 평가하였다. 신문기사를 대상으로 실험한 결과 제안한 모델이 단어의 출현 빈도를 고려하는 방법, 시소러스를 이용하는 방법 모두에 비해 더 좋은 성능을 보였다. 제안한 모델은 정보검색, 정보추출, 문서요약 등에 이용될 수 있으리라 기대된다.

In this paper, We propose a document thematic words extraction by using principal component analysis(PCA) which is one of the multivariate statistical methods. The proposed PCA model understands the flow of words in the document by using an eigenvalue and an eigenvector, and extracts thematic words. The proposed model is estimated by applying to document summarization. Experimental results using newspaper articles show that the proposed model is superior to the model using either word frequency or information retrieval thesaurus. We expect that the Proposed model can be applied to information retrieval , information extraction and document summarization.

키워드

참고문헌

  1. Willaim B. Frakes, Richard Baeza-Yates, Information Retrieval : Data Structure & Algorithms, Prentice-Hall, 1992
  2. 황이규, 이근용, 김남수, 이용석, '구문형태소를 이용한 색인어 추출', 한글 및 한국어 정보처리, 2000
  3. 김영택, 자연언어처리, 교학사, 1994
  4. 김기영, 전명식, '다변량 통계자료분석', 자유아카데미, 1994
  5. H. P. Edmundson, 'New Methods in Automatic Extracting,' Journal of the Association for Computing Machinery, Vol. 16, No. 2, pp. 264-285, 1969 https://doi.org/10.1145/321510.321519
  6. J.Kupiec, J.Pedersen, F.Chen, 'A Trainable Document Summarizer,' Proc. 18th ACM-SIGIR Conf., 1995 https://doi.org/10.1145/215206.215333
  7. 양기주, '수사구조에 기반한 한국어 요약문 생성,' 연구개발정보센터, 1997
  8. Eduard Hovy and Chin Yew Lin, 'Automated Text Summarization in SUMMARIST,' Proc. Association for Computational Linguistics, pp.18-24, 1997
  9. Regina Brazilay, Michael Elhadad, 'Using Lexical chains for Text Summarization,' Proc. Association for Computational Linguistics, pp.10-17, 1997
  10. 이창범, 박혁로, '시소러스를 이용한 문서 자동 요약,' 제28회 정보과학회 봄 학술발표 논문집(B), 제28권, 1호, pp.352-354, 2001
  11. Gerald Salton, Amit Singhal, 'Automatic Text Theme Generation and the Analysis of Text Structure,' Computer Science Department Technical Report, Cornell University 1994
  12. Jose Abracos, Gabriel Pereira Lopes, 'Statistical methods for retrieving most significant paragraphs in newspaper articles,' Proc. Association for Computational Linguistics, pp.51-57, 1997
  13. 강상배, 조혁규, 권혁철, 박재득, 박동인, '한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현', 제9회 한글 및 한국어 정보처리학술대회, pp.28-36, 1997
  14. 김계성, 이현주, 정영규, 서연경, 손기준, 이상조, '단락 자동 구분을 통한 중요 문장 추출,' 한글 및 한국어 정보처리 학술발표 논문집, 2000
  15. 김재훈, 김준홍, '도합유사도를 이용한 한국어 추출문서 요약,' 한글 및 한국어 정보처리 학술발표 논문집, 2000
  16. 류동원, 이종혁, '단어공기정보를 이용한 자동화 문서 요약,' 제27회 정보과학회 봄 학술발표 논문집(B), 제27권, 1호, pp.339-341, 2000
  17. 류 제, 한광록, 손석원, 임기욱, '단어의 공기 관계 그래프를 이용항 문서의 핵심 문장 추출에 관한 연구,' 한국정보처리학회 논문지 제7권 제11호, pp.3427-3437, 2000
  18. 박혁로, 이현민, 전남열, 최선화, 정경석, 'Answer Set 구축 지원도구 개발에 관한 연구', 한국전자통신연구원 연구보고서, 2000
  19. 박혁로, 신중호, '검색/요약/필터링을 위한 텍스트 이해 모형 및 처리 기술 개발', 연구개발정보센터 연구보고서, 1999
  20. 이창기, 이근배, 'WordNet을 이용한 한국어 시소러스 자동 구축', 제 11회 한글 및 한국어정보처리 학술대회
  21. 장동현, 맹성현, '자동 요약 시스템', 정보과학회지 제15권 제10호, pp.42-49, 1997
  22. 한경수, 백대호, 임해창, '질의 확장을 이용한 자동 문서 요약,' 제27회 정보과학회 봄 학술발표 논문집(B), 제27권, 1호, pp.339-341, 2000
  23. 한영석, 김선섭, 나태현, 김인석, '한국어 문서 자동요약 엔진 개발,' 연구개발정보센터, 1998