DOI QR코드

DOI QR Code

Practical Development and Application of a Korean Morphological Analyzer for Automatic Indexing

자동 색인을 위한 한국어 형태소 분석기의 실제적인 구현 및 적용

  • 최성필 (한국과학기술정보연구원) ;
  • 서정현 (한국과학기술정보연구원) ;
  • 채영숙 (영산대학교 멀티미디어공학부)
  • Published : 2002.10.01

Abstract

In this paper, we developed Korean Morphological Analyzer for an automatic indexing that is essential for Information Retrieval. Since it is important to index large-scaled document set efficiently, we concentrated on maximizing the speed of word analysis, modularization and structuralization of the system without new concepts or ideas. In this respect, our system is characterized in terms of software engineering aspect to be used in real world rather than theoretical issues. First, a dictionary of words was structured. Then modules that analyze substantive words and inflected words were introduced. Furthermore numeral analyzer was developed. And we introduced an unknown word analyzer using the patterns of morpheme. This whole system was integrated into K-2000, an information retrieval system.

본 논문에서는 정보검색 시스템에서 필수적인 자동 색인을 위한 한글 형태소 분석기를 구현하였다. 현존하는 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하기 위해서 새로운 개념이나 아이디어의 도입 및 적용에 초점을 맞추기보다는 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화에 초점을 맞추었다. 따라서 본 논문에서 개발된 시스템의 특징은 이론적인 측면보다는 소프트웨어 공학적인 측면이 훨씬 더 강조된다 품사 사전의 구조화가 우선적으로 수행되었으며, 이에 따라서 체언 및 용언 분석 모듈, 수사 분석 모듈 둥이 구현되었다. 또한 형태소의 패턴을 이용한 미등록어 분석 기능이 개발되었다. 개발된 전체 시스템은 정보 검색 엔진인 K-2000 시스템의 색인 모듈로 장착되어서 적용되었다.

Keywords

References

  1. 강승식, '음절 정보와복수어 단위 정보를 이용한 한국어 형태소 분석', 서울대학교 컴퓨터공학과 박사학위논문, 1993
  2. 최성필,'오류분석정보와 복합명사의 의미처리규칙 및 말뭉치를 이용한 철자 교정기의 성능 개선', 부산대학교 전자계산학과 석사학위논문, 1998
  3. 한경수, 이도길, 임해창,'통합정보검색을 위한 과학기술문서 색인 및 요약 시스템의 개발', 제5회 한국 과학기술 정보인프라 워크샵 논문집, 2000
  4. 심철민, '어절 간 연관 관계와 오류 유형 추정 규칙에 기반한 한국어 철자 교정기', 부산대학교 전자계산학과 석사학위논문, 1995
  5. 채영숙, 김재원, 김민정, 권혁철, 한국어 철자겁색을위한형태소 분석 기법, ''91 우리말 정보화 잔치' 국어 정보학회. pp. 179-186, 1991
  6. 채영숙, '연어 규칙에 기반한 한국어 문서 교정시스템의 구현', 부산대학교 전자계산학과 박사학위논문, 1998
  7. 강승식, '다층 형태론과 한국어 형태소 분석 모델', 제6회 한글 및 한국어 정보처리 학술발표 논문집, pp.140-145, 1994
  8. 강승식, '음절 특성을 이용한 한국어 불규칙 활용 어절의 형태소 분석 방법', 1993년도 제5회 한글 및 한국어 정보처리 학술발표논문집, 1993
  9. 김민정, '규칙과 말뭉치를 이용한 한국어 형태소 분석과 중의성 제거', 부산대학교 전자계산학과 박사학위논문, 1997
  10. 동아 새국어사전, 서 울 : 동아출판사, 1995
  11. 이영식, '사전 근사탐색과 Heuristics를 이용한 한국어 철자 오류 교정 시스템 구현', 부산대학교 전자계산학과 석사학위 논문, 1994
  12. 강승식, 권혁일, 김동렬, '한국어 자동 색인을 위한 형태소 분석의 기능', 한국정보과학회 춘계 학술 발표논문집, 제22권 제1호, pp.929-932, 1995
  13. 심준혁, 김준석, 이근배, '통계와 규칙을 이용한 강인한 품사태거', 제1회 형태소 분석기 및 품사태거 평가 워크샵 논문집, pp.60-75, 1999
  14. 이운재, 김선배, 김길연, 최기선, '모듈화된 형태소 분석기의 구현', 제1회 형태소 분석기 및 품사태거 평가 워크샵 논문집, pp.123-136, 1999
  15. 장동현, 맹성현, '학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사추출기', 제1회 형태소 분석기 및 품사태거 평가 워크샵, pp.13-22, 1999
  16. 최재혁, '형태소 분석을 통한 한영 자동 색인어 추출 시스템', 정보과학회 논문지 , 제23권 제12호, pp.1279-1288, 1996
  17. 김태희, 박혁로, 신중호, '검색/요약/필터링을 위한 텍스트 이해 모형 연구', 제3회 소프트과학 워크샵 논문집, 1999
  18. 이근용, 박기션, 이용석, 'Two-level 한국어 형태소 해석에서의 복합명사 처리', 2002 정보과학회 봄 학술발표논문집, pp. 505-507, 2002
  19. 김남철, 서영훈, '형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX', 제1회 형태소 분석기 및 품사 태거 평가 워크삽 논문집, pp.50-59, 1999
  20. 강승식, '한국어 수사어절의 유형 분류 및 정규화', 한국정보과학회 추계학술발표논문집, pp.127-189, 1999
  21. 김수남, 원상현, 권혁철, 주종철, 이상기, '의미정보를 이용한 한국어 복합명사 분석', 한국정보과학회 추계학술발표논문집, pp.195-197, 1999
  22. 신기철, 신용청, '새우리말 큰사전' 삼성출판사, 1994
  23. Baeza-Yates, Ricardo, and Ribeiro-Neto, Berthier, 'Mordern Information Retrieval, New York : ACM Press,' 1999
  24. Cahill, L. J., 'Syllable-based Morphology,' Proceedings of the 13th International Conference on Computational Linguistics, Vol.3, pp.48-53, 1990 https://doi.org/10.3115/991146.991155
  25. Charniak, Eugene, 'Statistical Langual Learning,' A Bradford Book, Cambridge : The MIT Press, 1993
  26. Kang, S. S., 'A Statistical Approach to Syllable-based Morphological Analysis,' Proceedings of the International Conference on Computer Processing of Chinese and Oriental Language, 1992
  27. Kelly, Douglas G., Introduction to Probability. London : Macmillan Publishing Company, 1994
  28. Koskcnniemi, K., 'Two-level Model for Morphological A-nalysis,' Proceedings of the 8th International Joint Conference on Artificial Intelligence, pp.683-685, 1983
  29. Kwon, H. C, Chae, Y. S. and Jeong, G. O., 'A Dictionary-based Morphological Analysis,' Proceedings of NLPRS '91, pp.87-91, 1991
  30. Kwon, H. C. and Karttunen, L., 'Incremental Construction of a Lexical Transducer for Korean,' Proceedings of the 15-th International Conference on Computational Linguistics, Vol.2, pp.1262-1266, 1994 https://doi.org/10.3115/991250.991358
  31. Manning, Christopher D. and Hinrich Schutze, Foundations of Statistical Natural Language Processing, Cambridge : The MIT Press, 1999