DOI QR코드

DOI QR Code

A Recognition Method for Main Characters Name in Korean Novels

한국어 소설에서 주요 인물명 인식 기법

  • Received : 2016.02.05
  • Accepted : 2016.02.14
  • Published : 2016.02.29

Abstract

The main characters play leading roles in novels. In the previous studies, they recognize the main characters in a novel mainly based on dictionaries that built beforehand. In English, names begin with upper cases and are used with some words. In this paper, we propose a recognition method for main characters name in Korean novels by using predicates, rules and weights. We first recognize candidates for the characters name by predicates and propose some rules to exclude candidates that cannot be characters. We assign importances for candidates, considering weights that given by the number of candidates appeared in a sentence. Finally, if the importance of the character is more than a threshold, we decide that the character is one of main characters. The results from the experiments for 300 novels show that an average accuracy is 85.97%. The main characters name may be used to grasp relationships among characters, character's action and tendency.

소설에서 주요 인물은 소설의 이야기를 전개하는 아주 중요한 역할을 담당하여 소설에서 없어서는 안 되는 중심인물을 의미한다. 기존의 인물명 인식 연구에서는 구축해놓은 인물명 사전을 통해 인물명을 인식하였고, 영어의 경우 대소문자 구별이 있으며 인물명과 함께 사용되는 단어를 활용하여 인물명을 인식하였다. 본 논문에서는 한국어 소설에서 용언, 규칙 및 가중치를 이용한 주요 인물명 인식 기법에 대해 제안한다. 먼저, 인물이 행할 수 있는 용언을 근거로 인물명 후보를 인식하고, 인식된 인물명 후보 중 인물명으로 사용될 수 없는 규칙에 해당되는 후보들을 제거한다. 문장에 나타나는 인물명 후보의 수에 따라 가중치를 부여하여 중요도를 계산하고, 중요도가 임계치 이상인 경우 주요 인물명으로 판단한다. 소설 300권을 대상으로 실험 결과 평균 85.97%의 정확도를 보였다. 인식된 주요 인물명은 향후 소설내 등장인물 간 연관관계를 파악하거나 등장인물의 행위, 성향 등을 파악하는데 활용될 수 있다.

Keywords

References

  1. K. H. Lee, J. H. Lee, M. S. Choi, G. C. Kim, "Study on Named Entity Recognition in Korean Text", Proceedings of the 12th Annual Conference on Human and Cognitive Language Technology, pp. 292-299, October, 2000.
  2. K. M. Bae, S. H. Kim, Y. J. Ko, J. H. Kim, "An Efficient Named Entity and Topic Word Recognition Method Based on Named Entity Pattern in a Natural Language Interface", Journal of Korean Institute of Information Technology, Vol.12, No.1, pp. 121-129, Korean Institute Of Information Technology, January, 2014.
  3. S. K. Han, "A Comparative Study about Construction and the Service of the Domestic Biographical Database", Journal of Korean Library And Information Science Society (JKLISS), Vol.39, No.4, pp. 331-352, December, 2008. https://doi.org/10.16981/kliss.39.4.200812.331
  4. G. M. Park, S. H. Kim, H. G. Cho, "Analysis of Social Network According to The Distance of Characters Statements", Journal of The Korea Contents Association, Vol.13, No.4, pp. 427-439, April, 2013.
  5. S. Morwal, N. Jahan, D. Chopra, "Named Entity Recognition using Hidden Markov Model(HMM)", International Journal on Natural Language Computing (IJNLC), Vol.1, No,4, pp. 15-23. December, 2012. https://doi.org/10.5121/ijnlc.2012.1402
  6. E. Minkov, R. C. Wang, W. W. Cohen, "Extracting Personal Names from Email: Applying Named Entity Recognition to Informal Text", Proceedings of the conference on Human Language Technology and Empirical Method in Natural Language Processing, pp. 443-450, Association for Computational Linguistics, 2005.
  7. D. Maynard, V. Tablan, C. Ursu, H. Cunningham, Y. Wilks, "Named Entity Recognition from Diverse Text Types", In Recent Advances in Natural Language Processing 2001 Conference, 2001.
  8. R. Fu, B. Qin, T. Liu, "Generating Chinese named entity data from parallel corpora", IJCNLP, 2011.