DOI QR코드

DOI QR Code

Korean Base-Noun Extraction and its Application

한국어 기준명사 추출 및 그 응용

  • 김재훈 (한국해양대학교 컴퓨터공학과)
  • Published : 2008.12.31

Abstract

Noun extraction plays an important part in the fields of information retrieval, text summarization, and so on. In this paper, we present a Korean base-noun extraction system and apply it to text summarization to deal with a huge amount of text effectively. The base-noun is an atomic noun but not a compound noun and we use tow techniques, filtering and segmenting. The filtering technique is used for removing non-nominal words from text before extracting base-nouns and the segmenting technique is employed for separating a particle from a nominal and for dividing a compound noun into base-nouns. We have shown that both of the recall and the precision of the proposed system are about 89% on the average under experimental conditions of ETRI corpus. The proposed system has applied to Korean text summarization system and is shown satisfactory results.

정보검색, 문서요약 등의 분야에서 명사추출은 매우 중요하다. 본 논문은 대량의 문서로부터 기준명사를 효과적으로 추출하기 위한 한국어 기준명사 추출 시스템을 제안하고 이를 문서요약 시스템에 적용한다. 기준명사는 명사들 중에서 기본이 되는 명사이며 복합명사는 포함되지 않는다. 본 논문에서는 두 가지 기술 즉 여과기법과 분리기법을 사용한다. 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 문서요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

Keywords

References

  1. Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, Addison Wesley, 1999
  2. Mani, I. and Maybury Mark T., Advances in Automatic Text, The MIT Press, 1999
  3. 김재훈, 선충녕, 홍상욱, 이성욱, 서정연, 조정미, “KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태깅 시스템”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp. 99-105, 1999
  4. 심준혁, 김준석, 이근배, “통계와 규칙을 이용한 강인한 품사태거”, 제1회 형태소 분석기 및 품사태거 평가 워크숍 발표논문집, pp.60-75, 1999
  5. 안동언, “좌우접속정보를 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp.173-178, 1999
  6. 이중영, 신병훈, 이공주, 김지은, 안상규, “COM기반의 다목적 형태소 분석기를 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp.167-171, 1999
  7. 최재혁, “형태소 분석을 통한 한영 자동 색인어 추출,” 정보과학회논문지(B), 제23권 제12호, pp.1279-1288, 1996
  8. 장동현, 맹성현, “학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거평가 워크숍 발표논문집, pp.151-156, 1999
  9. 윤보현, 조민정, 임해창, “통계정보와 선호 규칙을 이용한 한국어 복합 명사의 분해”, 정보과학회논문지(B), 제24권, 제8호, pp.900-909, 1997
  10. 박혁로, 신중호, “비터비 학습 알고리즘을 이용한 한글 복합명사 분석”, 1997 한국정보과학회 가을 학술 발표논문집, Vol.24, No.2, pp.219-222, 1997
  11. 강승식, “한국어 복합명사 분해 알고리즘”, 정보과학회논문지(B), 제25권, 제1호, pp.172-182, 1998
  12. 최재혁, “음절수에 따른 한국어 복합명사 분리 방안”, 제8회 한글 및 한국어 정보처리 학술대회 발표논문집, pp.262-267, 1996
  13. Aho, V. A. and Ullman, J. D. The Theory of Parsing, Translation, and Compiling, Prentice-Hall, 1972
  14. 김재훈, 김길창, 한국어에서의 품사 부착 말뭉치의 작성 요령 : KAIST 말뭉치, 한국과학기술원, 전산학과, 기술문서, CS/TR-95-9, 1995
  15. 이현아, 이원일 임선숙, 허은경, 이재성, 차건희, 박재득, “표준안에 따른 품사 부착 말뭉치 구축”, 제1회 형태소 분석기 및 품사 태거 평가 워크숍 발표 논문집, pp.40-43, 1999
  16. Manning, C. D. and Schutze, H. Foundations of Statistical Natural Language Processing, The MIT Press, 1999
  17. 김준홍, 도합유사도를 이용한 추출요약 시스템, 한국해양대학교, 컴퓨터공학과, 석사학위 논문, 2000
  18. 이도길, 류원호, 임해창, “분석 배제 정보와 후절어를 이용한 한국어 명사추출”, 제12회 한글 및 한국어 정보처리 학술대회발표논문집, 서울, 성공회대학교, pp.19-25, 2000
  19. Teufel, S. and Moens, M., “Argumentative classification of extracted sentences as a first step towards flexible abstracting,” in Mani, I. and Maybury, M. T., editors, Advances in Automatic Text Summarization, pp.155-171. The MIT Press, 1999
  20. 김태희, 박혁로, 신중호 “검색/요약/필터링을 위한 텍스트 이해 모형 연구”, 제3회 소프트과학 워크숍, 1999