의미 분석과 형태소 분석을 이용한 핵심어 인식 시스템

Key-word Recognition System using Signification Analysis and Morphological Analysis

  • 안찬식 (광운대학교 컴퓨터공학과) ;
  • 오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)
  • 투고 : 2010.06.15
  • 심사 : 2010.10.19
  • 발행 : 2010.11.30

초록

확률적 패턴 매칭과 동적 패턴 매칭의 어휘 인식 오류 보정 방법에서는 핵심어를 기반으로 문장을 의미론적으로 분석하므로 형태론적 변형에 따른 핵심어 분석이 어려운 문제점을 가지고 있다. 이를 해결하기 위해 본 연구에서는 음절 복원 알고리즘에서 형태소 분석을 이용하여 인식된 음소 열을 의미 분석 과정을 통해 음소의 의미를 파악하고 형태론적 분석으로 문장을 복원하여 어휘 오인식률을 감소하였다. 시스템 분석을 위해 음소 유사률과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 2.0%의 인식 향상률을 보였다.

Vocabulary recognition error correction method has probabilistic pattern matting and dynamic pattern matting. In it's a sentences to based on key-word by semantic analysis. Therefore it has problem with key-word not semantic analysis for morphological changes shape. Recognition rate improve of vocabulary unrecognized reduced this paper is propose. In syllable restoration algorithm find out semantic of a phoneme recognized by a phoneme semantic analysis process. Using to sentences restoration that morphological analysis and morphological analysis. Find out error correction rate using phoneme likelihood and confidence for system parse. When vocabulary recognition perform error correction for error proved vocabulary. system performance comparison as a result of recognition improve represent 2.0% by method using error pattern learning and error pattern matting, vocabulary mean pattern base on method.

키워드

참고문헌

  1. Eiichi Tanaka and Tamotsu Kasai, "Synchronization and Substitution Error-correcting codes for the Levenshtein Metric," IEEE Trans. Information Theory, Vol.IT-22, No.2, pp. 156-176, 1976.
  2. E. K. Ringer and J. F. Allen, "A fertility channel model for post-correction of continuous speech recognition," Proc. ICSLP, pp.897-900, Oct, 1996.
  3. 박미성, 김미진, 김계성, 최재혁, 이상조, "연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용," 대한전자공학회 논문지, 제36권, 제3호, 47-57쪽, 1999년.
  4. 문광식, 김희린, 정재호, 이영직, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘의 성능비교," 신호처리합동학술대회 논문집, 제12권, 제1호, 305-308쪽, 1999년.
  5. 조시원, 이동욱, "음성 인식 후처리를 위한 연속 음절 문장의 키워드 추출 알고리즘," 대한전기학회, 학술대회 논문집, 심포지엄 논문집 정보 및 제어부문, 170-171쪽, 2008년 4월.
  6. L. Rabiner and B. H. Juang, "Fundamentals of Speech Recognition ", Prentice-Hall, 1993.
  7. 안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템," 한국컴퓨터정보학회 논문지, 제14권, 제10호, 217-223쪽, 2009년 10월.
  8. 송원문, 김명원, "문맥 및 사용 패턴 정보를 이용한 음성인식 후처리," 정보처리학회 논문지, 제13-B권, 제5호, 553-560쪽, 2006년.
  9. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 대한전자공학회 논문지, 제43권, 제6호, 496-504쪽, 2006년.
  10. 이승욱, 이도길, 임해창, "형태소 분석 및 품사부착을 위한 말뭉치 기반 혼합 모형," 한국컴퓨터정보학회 논문지, 제13권, 제7호, 11-18쪽, 2008년 12월.
  11. D. Lee, H. Rim and D. Yook, "Automatic Word Spacing using Probabilistic Models Based on Character n-grams," IEEE Intelligent Systems, Vol. 22, No. 1, pp. 28-35, Jan.-Feb. 2007. https://doi.org/10.1109/MIS.2007.4
  12. 여상화, "한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기," 한국컴퓨터 정보학회 논문지, 제14권 제2호, 191-198쪽, 2009년 12월.
  13. S. Kang and C. Woo, "Automatic Segmentation of Words using Syllable Bigram Statistics," Proc. Natural Language Processing Pacific Rim Symposium, pp. 729-732, Nov. 2001.
  14. M. Ostendorf, "From HMM's to segment models: a unified view of stochastic modeling for speech recognition," Speech and Audio Processing, IEEE, Vol. 4, pp.360-378, 1996. https://doi.org/10.1109/89.536930
  15. 한동조, 최기호, "음성인식 후처리에서 음소 유사율을 이용한 오류보정에 관한 연구," 한국ITS학회 논문지, 제6권, 제3호, 77-86쪽, 2007년 12월.
  16. M. F. Gales, "Model-based techniques for nosie robust speech recognition," Ph. D. dissertation, University of Cambridge, Sept, 1995.
  17. 음성정보기술산업지원센터, "한국어 음성인식 플랫폼 사용자 매뉴얼(ECHOS Manual)," 135-308쪽, 2006년.