Korean Noun Extractor using Occurrence Patterns of Nouns and Post-noun Morpheme Sequences

한국어 명사 출현 특성과 후절어를 이용한 명사추출기

  • 박용현 (동아대학교 컴퓨터공학과) ;
  • 황재원 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Received : 2010.03.05
  • Accepted : 2010.10.07
  • Published : 2010.12.15

Abstract

Since the performance of mobile devices is recently improved, the requirement of information retrieval is increased in the mobile devices as well as PCs. If a mobile device with small memory uses a tradition language analysis tool to extract nouns from korean texts, it will impose a burden of analysing language. As a result, the need for the language analysis tools adequate to the mobile devices is increasing. Therefore, this paper proposes a new method for noun extraction using post-noun morpheme sequences and noun patterns from a large corpus. The proposed noun extractor has only the dictionary capacity of 146KB and its performance shows 0.86 $F_1$-measure; the capacity of noun dictionary corresponds to only the 4% capacity of the existing noun extractor with a POS tagger. In addition, it easily extract nouns for unknown word because its dependence for noun dictionaries is low.

최근 모바일 기기의 발전으로 인하여, PC뿐만 아니라 모바일 기기에서의 정보검색의 요구가 증가하고 있다. 모바일 기기에서 명사를 추출하기 위하여 기존의 언어분석도구를 사용하게 되면, 상대적으로 적은 메모리를 가지고 있는 모바일 기기에는 부담이 되게 된다. 따라서, 모바일 기기에 적합한 언어분석도구의 필요성이 증가하고 있다. 본 논문에서는 대량의 말뭉치로부터 추출한 영사 출현 특성과 후절어를 이용하여 명사를 추출하는 방법을 제안한다. 제안된 명사 추출기는 형태소 분석기를 사용한 기존 명사 추출기의 명사 사전의 약 4% 용량인 146KB의 명사 사전만을 사용함에도 불구하고, 최종적으로 $F_1$-measure 0.86라는 좋은 성능을 얻었다. 또한, 명사 사전에 대한 의존도가 낮으므로, 미등록 명사 추출에 대한 성능이 높을 것으로 예상된다.

Keywords

References

  1. D. An, "A Noun Extractor using Connectivity Information," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC" 99), PP.173-178, Oct. 1999. (in Korean)
  2. N. Kim, Y. Seo, "A Korean Morphological Analyzer CBKMA and A Index Extractor CBKMA/IX," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC '99), pp.50-59, Oct. 1999. (in Korean)
  3. J. Lee, B. Shin, K. Lee, J Kim, S. Ahn, "Noun Exiractor based on a multi-purpose Korean morphological engine implemented with COM," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC '99) pp.167-172, Oct. 1999. (in Korean)
  4. D. Lee, S. Lee, H. Rim, "An Efficient Method for Korean Noun Exiraction Using Noun Patterns," Journal of KIISE Software and Applications, vol.30, no.1-2, pp.173-183, Feb. 2003. (in Korean)
  5. J. Shim, J. Kim, J. Cha, G. Lee, "Robust Part-of Speech Tagger using Statistical and Rule-based Approach," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC''99), pp.60-75, Oct. 1999. (in Korean)
  6. D. Jang, S. Myaeng, "A Noun Exiractor based on Dictionaries and Heuristic Rules Obtained from Training Data," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC''99), pp.151- 156, Oct. 1999. (in Korean)
  7. W. Lee, S. Kim, G. Kim, K. Choi, "Implementation of Modularized Morphological Analyzer," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC''99), pp.123-136, Oct. 1999. (in Korean)
  8. J. Hong, J. Cha, "A New Korean Morphological Analyzer using Eojeol Pattern Dictionary," Proc. of the KCC-2008, vol.35, no.1, pp.279-284, June. 2008. (in Korean)
  9. J. Lee, J. Park, K. Cha, S. Park, "Morphological Analyzer and Tagger Evaluation Contest(MATEC99) Overview," Proc. Morphological Analyzer and Tagger Evaluation Contest (MATEC "99), pp.13-22, Oct. 1999. (in Korean)