DOI QR코드

DOI QR Code

Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템

  • 이용훈 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
  • 이응봉 (충남대학교 문헌정보학과)
  • Received : 2011.12.26
  • Accepted : 2012.01.25
  • Published : 2012.02.29

Abstract

We propose a Korean compound noun semantic tagging system using statistical compound noun decomposition and semantic relation information extracted from a lexical semantic network(U-WIN) and dictionary definitions. The system consists of three phases including compound noun decomposition, semantic constraint, and semantic tagging. In compound noun decomposition, best candidates are selected using noun location frequencies extracted from a Sejong corpus, and re-decomposes noun for semantic constraint and restores foreign nouns. The semantic constraints phase finds possible semantic combinations by using origin information in dictionary and Naive Bayes Classifier, in order to decrease the computation time and increase the accuracy of semantic tagging. The semantic tagging phase calculates the semantic similarity between decomposed nouns and decides the semantic tags. We have constructed 40,717 experimental compound nouns data set from Standard Korean Language Dictionary, which consists of more than 3 characters and is semantically tagged. From the experiments, the accuracy of compound noun decomposition is 99.26%, and the accuracy of semantic tagging is 95.38% respectively.

본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

Keywords

References

  1. 최재혁, "음절수에 따른 한국어 복합 명사 분리 방안", 한국정보 과학회 언어공학연구회, 제8회 한글 및 한국어 정보처리 학술대회 pp.262-267, 1996.
  2. 강승식, "한국어 복합명사 분해 알고리즘", 한국정보과학회, 정보과학회논문지(B), 제25권 제1호, pp.172-182, 1998.
  3. 윤보현, 임희석, 임해창, "통계 정보를 이용한 한국어 복합 명사의 분석 방법", 한국정보과학회 봄 학술발표논문집 제22권 제1 호, pp.925-928, 1995
  4. J.T. Yoon, K.S. Choi, and M.S. Song, "Corpus-based approach for nominal compound analysis for Korean based on linguistic and statistical information." In Proceedings of the 1999 Joint SIGDAT Conference on EMNLP/VLC. College Park, MD, pp.292-300, 2001.
  5. 강유환, 서영훈, "미등록어의 의미 범주 분석을 이용한 복합명사 분해", 한국데이타베이스학회, 정보기술과 데이타베이스 저널 제 11권 제4호, pp.95-102, 2004.
  6. 임해창, 임희석, 윤보현, "자연어 처리 연구동향: 통계 기반의 자연어 처리", 한국정보과학회지, 제12권, 제9호, pp.20-30, 1994.
  7. 박재한, 김명선, 노대욱, 나동열, "백오프 통계정보를 이용한 미 등록어 포함 복합명사의 분해", 한국정보과학회 언어공학연구회, 제16회 한글 및 한국어 정보처리 학술대회 발표자료집 제16 권 제1호 pp.65-72, 2004.
  8. 강민규, 강승식, "한국어 복합명사 분해 오류 교정 기법", 한국정보과학회, 한국 컴퓨터 종합 학술 발표 논문집 제37권 제1호 (C), pp.254-259, 2010.
  9. 원상연, 김수남, 김광영, 남현숙, 권혁철, "한국어 문법검사기에서 의미정보를 이용한 복합명사의 분석제약", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.288-293, 1999.
  10. 김도완, 이경순, 김길창, "의미관계와 문형정보를 이용한 복합 명사 해석", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.310-315, 1999.
  11. 강유환, 정천영, 서영훈, "명사의 의미 정보를 이용한 복합명사 분석의 중의성 해결", 한국정보과학회 언어공학연구회, 제14회 한글 및 한국어 정보처리 학술대회 pp.171-175, 2002.
  12. 허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템", 한국정보과학회, 정보과학회 논문지, 소프트웨어 및 응용, 제28권 제9호 pp.688-698, 2001.
  13. 허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해결", 한국정보과학회, 정보과학회논문지, 소프트웨어 및 응용, 제33권 제12호 pp.1073-1089, 2006.
  14. M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," In Proceedings of the 5th annual international conference on Systems documentation, pp.24-26, 1986.
  15. Cowie, J., L. Guthrie, J. Guthrie, "Lexical disambiguation using simulated annealing," In Proceedings of COLING, 1992.
  16. Yarowsky D., "Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora," In Proceedings of Coling-92, 1992.
  17. 최호섭(2007), "대규모 사용자 어휘지능망 구축과 활용", 울산대학교 대학원 컴퓨터정보통신공학부 박사학위논문.
  18. 한국어의 한자어, 위키백과 - http://ko.wikipedia.org/wiki/한국어의_한자어
  19. 이용훈, 옥철영, "Naive Bayes Classifier를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석", 한국정보과학회 언어공학 연구회, 제23회 한글 및 한국어 정보처리 학술대회 pp.102-106, 2011.
  20. Escudero, G., Marquez, L., and Rigau, G. "Naive Bayes and exemplar-based approaches to word sense disambiguation revisited". In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI, Berlin, Germany), pp.421-425, 2000.
  21. 이용훈, 옥철영, "의미기반 한국어 복합명사 분석", 한국정보과학회 한국컴퓨터종합학술대회 논문집(C) pp.221-224, 2011.
  22. UTagger, 2011년 국어정보처리시스템 경진대회 출품, 울산대학교 한국어처리연구실