Document Thematic words Extraction using Principal Component Analysis

Lee, Chang-Beom;Kim, Min-Soo;Lee, Ki-Ho;Lee, Guee-Sang;Park, Hyuk-Ro;

한국정보과학회논문지:소프트웨어및응용 (Journal of KIISE:Software and Applications)

제29권10호
/
Pages.747-754
/
2002
/
1229-6848(pISSN)

한국정보과학회 (Korean Institute of Information Scientists and Engineers)

주성분 분석을 이용한 문서 주제어 추출

Document Thematic words Extraction using Principal Component Analysis

이창범 (전남대학교 전산학과) ;
김민수 (전남대학교 BK사업단 post-doc) ;
이기호 (충북과학대학 컴퓨터정보학과) ;
이귀상 (전남대학교 전산학과) ;
박혁로 (전남대학교 전산학과)

Lee, Chang-Beom (Dept.of Computer Science, Chonnam National University) ;
Kim, Min-Soo ;
Lee, Ki-Ho ;
Lee, Guee-Sang (Dept.of Computer Science, Chonnam National University) ;
Park, Hyuk-Ro (Dept.of Computer Science, Chonnam National University)

발행 : 2002.10.01

PDF KSCI

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 문서의 내용을 대표할 수 있는 주제어를 추출하는데 있어 다변량 통계 분석 기법 중의 하나인 주성분 분석을 이용하는 모델을 제안한다. 제안한 모델은 고유값과 고유벡터를 이용하여 문서 자체내의 단어의 흐름을 파악한 후 주제어를 추출하는 방법이다. 제안한 모델을 문서 요약에 적용하여 그 성능을 평가하였다. 신문기사를 대상으로 실험한 결과 제안한 모델이 단어의 출현 빈도를 고려하는 방법, 시소러스를 이용하는 방법 모두에 비해 더 좋은 성능을 보였다. 제안한 모델은 정보검색, 정보추출, 문서요약 등에 이용될 수 있으리라 기대된다.

In this paper, We propose a document thematic words extraction by using principal component analysis(PCA) which is one of the multivariate statistical methods. The proposed PCA model understands the flow of words in the document by using an eigenvalue and an eigenvector, and extracts thematic words. The proposed model is estimated by applying to document summarization. Experimental results using newspaper articles show that the proposed model is superior to the model using either word frequency or information retrieval thesaurus. We expect that the Proposed model can be applied to information retrieval , information extraction and document summarization.

키워드

참고문헌

Willaim B. Frakes, Richard Baeza-Yates, Information Retrieval : Data Structure & Algorithms, Prentice-Hall, 1992
황이규, 이근용, 김남수, 이용석, '구문형태소를 이용한 색인어 추출', 한글 및 한국어 정보처리, 2000
김영택, 자연언어처리, 교학사, 1994
김기영, 전명식, '다변량 통계자료분석', 자유아카데미, 1994
H. P. Edmundson, 'New Methods in Automatic Extracting,' Journal of the Association for Computing Machinery, Vol. 16, No. 2, pp. 264-285, 1969 https://doi.org/10.1145/321510.321519
J.Kupiec, J.Pedersen, F.Chen, 'A Trainable Document Summarizer,' Proc. 18th ACM-SIGIR Conf., 1995 https://doi.org/10.1145/215206.215333
양기주, '수사구조에 기반한 한국어 요약문 생성,' 연구개발정보센터, 1997
Eduard Hovy and Chin Yew Lin, 'Automated Text Summarization in SUMMARIST,' Proc. Association for Computational Linguistics, pp.18-24, 1997
Regina Brazilay, Michael Elhadad, 'Using Lexical chains for Text Summarization,' Proc. Association for Computational Linguistics, pp.10-17, 1997
이창범, 박혁로, '시소러스를 이용한 문서 자동 요약,' 제28회 정보과학회 봄 학술발표 논문집(B), 제28권, 1호, pp.352-354, 2001
Gerald Salton, Amit Singhal, 'Automatic Text Theme Generation and the Analysis of Text Structure,' Computer Science Department Technical Report, Cornell University 1994
Jose Abracos, Gabriel Pereira Lopes, 'Statistical methods for retrieving most significant paragraphs in newspaper articles,' Proc. Association for Computational Linguistics, pp.51-57, 1997
강상배, 조혁규, 권혁철, 박재득, 박동인, '한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현', 제9회 한글 및 한국어 정보처리학술대회, pp.28-36, 1997
김계성, 이현주, 정영규, 서연경, 손기준, 이상조, '단락 자동 구분을 통한 중요 문장 추출,' 한글 및 한국어 정보처리 학술발표 논문집, 2000
김재훈, 김준홍, '도합유사도를 이용한 한국어 추출문서 요약,' 한글 및 한국어 정보처리 학술발표 논문집, 2000
류동원, 이종혁, '단어공기정보를 이용한 자동화 문서 요약,' 제27회 정보과학회 봄 학술발표 논문집(B), 제27권, 1호, pp.339-341, 2000
류 제, 한광록, 손석원, 임기욱, '단어의 공기 관계 그래프를 이용항 문서의 핵심 문장 추출에 관한 연구,' 한국정보처리학회 논문지 제7권 제11호, pp.3427-3437, 2000
박혁로, 이현민, 전남열, 최선화, 정경석, 'Answer Set 구축 지원도구 개발에 관한 연구', 한국전자통신연구원 연구보고서, 2000
박혁로, 신중호, '검색/요약/필터링을 위한 텍스트 이해 모형 및 처리 기술 개발', 연구개발정보센터 연구보고서, 1999
이창기, 이근배, 'WordNet을 이용한 한국어 시소러스 자동 구축', 제 11회 한글 및 한국어정보처리 학술대회
장동현, 맹성현, '자동 요약 시스템', 정보과학회지 제15권 제10호, pp.42-49, 1997
한경수, 백대호, 임해창, '질의 확장을 이용한 자동 문서 요약,' 제27회 정보과학회 봄 학술발표 논문집(B), 제27권, 1호, pp.339-341, 2000
한영석, 김선섭, 나태현, 김인석, '한국어 문서 자동요약 엔진 개발,' 연구개발정보센터, 1998

한국정보과학회논문지:소프트웨어및응용 (Journal of KIISE:Software and Applications)

주성분 분석을 이용한 문서 주제어 추출

Document Thematic words Extraction using Principal Component Analysis

초록

키워드

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)