DOI QR코드

DOI QR Code

Text Summarization using PCA and SVD

주성분 분석과 비정칙치 분해를 이용한 문서 요약

  • Published : 2003.12.01

Abstract

In this paper, we propose the text summarization method using PCA (Principal Component Analysis) and SVD (Singular Value Decomposition). The proposed method presents a summary by extracting significant sentences based on the distances between thematic words and sentences. To extract thematic words, we use both word frequency and co-occurence information that result from performing PCA. To extract significant sentences, we exploit Euclidean distances between thematic word vectors and sentence vectors that result from carrying out SVD. Experimental results using newspaper articles show that the proposed method is superior to the method using either word frequency or only PCA.

본 논문에서는 통계적 분석 기법인 주성분 분석과 비정칙치 분해를 이용한 문서 방법을 제안한다. 제안한 방법은 문서내의 주제어를 추출한 후, 추출된 주제어와 문장간의 거리가 가장 짧은 문장들을 중요 문장으로 추출하여 요약으로 제시한다. 주제어를 추출하기 위해서는 주성분 분석을 이용하였으며, 이는 문서 자체내의 빈도 정보와 단어간의 연관 정보를 이용한 것이다. 그리고, 중요 문장을 추출하기 위해 비정칙치 분해를 시행하여 문장 벡터와 주제어 벡터론 획득한 후, 두 벡터간의 유클리디언 거리를 계산하였다. 신문 기사를 대상으로 실험한 결과, 제안한 방법이 출현 빈도만을 이용한 방법과 주성분 분석만을 이용한 방법보다 성능이 우수함을 알 수 있었다.

Keywords

References

  1. J. Kupiec, J. Pedersen, F. Chen, 'A Trainable Document Summarizer,' Proc. 18th ACM-SIGIR Conf., 1995 https://doi.org/10.1145/215206.215333
  2. 류동원, 이종혁, '단어공기정보를 이용한 자동화 문서 요약', 제27회 정보과학회 봄 학술발표논문집(B), 제27권, 제1호, pp.339-341, 2000
  3. H. P. Edmundson, 'New Methods in Automatic Extracting,' Journal of the Association for Computing Machinery, Vol. 16, No.2 https://doi.org/10.1145/321510.321519
  4. 강상배, 조혁규, 권혁철, 박재득, 박동인, '한국어 문서의 통계적 정보를 이용한 문서요약 시스템 구현', 제9회 한글 및 한국어정보처리학술대회, pp.28-36, 1997
  5. 이창범, 박혁로, '시소러스를 이용한 문서 자동요약,' 정보과학회 춘계학술발표논문집(B), 2001
  6. Regina Barzilay, Michael Elhadad, 'Using Lexical chains for Text Summarization,' proc. Association for Computational Linguistics, pp.10-17, 1997
  7. 이창범, 김민수, 이기호, 이귀상, 박혁로, '주성분분석을 이용한 문서 주제어 추출,' 정보과학회논문지 : 소프트웨어 및 응용, 29(9), pp747-754, 2002
  8. 박혁로, 신중호, 이강혁, '기계 번역을 위한 정렬 코퍼스 작성 및 한글 어절 분석기 개발에 관한 연구', 연구개발정보센터 연구보고서, 1996
  9. 김기영, 전명식, '다변량 통계자료분석', 자유아카데미, 1994
  10. Richard A. Johnson, Dean W. Wichem, 'Applied Multivariate Statistical Analysis,' Prentice Hall, 1992
  11. 최용석, '행렬도의 이해와 응용', 자유아카데미, 1999
  12. William H. Press, Saul A. Teukolsky, et al., 'Numerical Recipes in C++,' Cambridge University Press, 2002
  13. Scott Deerwester, Susan T. Dumais, Richard Harshman, 'Indexing by Latent Semantic Analysis,' Journal of the American Society for Information Science, 41(6), pp.381-407, 1990 https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
  14. 김동현, 이승우, 이근배, '중요 문장추출 휴리스틱과 MMR를 이용한 질의기반 문서요약', 제14회 한글 및 한국어 정보처리학술발표논문집, pp.285-291, 2002
  15. Anastasios Tombros and M. Sanderson, 'Reflecting user information needs through query baised summaries,' SIG IR'98, 1998
  16. Eduard Hovy and Chin Yew Lin, 'Automated Text Summarization in SUMMARIST,' Proc. Association for Computational Linguistics, pp.18-24, 1997
  17. Jose Abracos, Gabriel Pereira Lopes, 'Statistical methods for retrieving most significant paragraphs in newspaper articles,' Proc. Association for Computational Linguistics, pp.51-57, 1997
  18. 김영택 외, '자연언어처리', 생능출판사, 2001
  19. 장동현, 맹성현, '자동 요약 시스템', 정보과학회지, 제15권 제10호, pp.42-49, 1997
  20. 우선미, 유춘식, 김용성, '용어 연관성 분석을 이용한 사용자 위주의 문서순위결정 기법', 정보과학회논문지 : 소프트웨어 및 응용, 제28권 제2호, pp.149-156, 2001