Abstract
The main characters play leading roles in novels. In the previous studies, they recognize the main characters in a novel mainly based on dictionaries that built beforehand. In English, names begin with upper cases and are used with some words. In this paper, we propose a recognition method for main characters name in Korean novels by using predicates, rules and weights. We first recognize candidates for the characters name by predicates and propose some rules to exclude candidates that cannot be characters. We assign importances for candidates, considering weights that given by the number of candidates appeared in a sentence. Finally, if the importance of the character is more than a threshold, we decide that the character is one of main characters. The results from the experiments for 300 novels show that an average accuracy is 85.97%. The main characters name may be used to grasp relationships among characters, character's action and tendency.
소설에서 주요 인물은 소설의 이야기를 전개하는 아주 중요한 역할을 담당하여 소설에서 없어서는 안 되는 중심인물을 의미한다. 기존의 인물명 인식 연구에서는 구축해놓은 인물명 사전을 통해 인물명을 인식하였고, 영어의 경우 대소문자 구별이 있으며 인물명과 함께 사용되는 단어를 활용하여 인물명을 인식하였다. 본 논문에서는 한국어 소설에서 용언, 규칙 및 가중치를 이용한 주요 인물명 인식 기법에 대해 제안한다. 먼저, 인물이 행할 수 있는 용언을 근거로 인물명 후보를 인식하고, 인식된 인물명 후보 중 인물명으로 사용될 수 없는 규칙에 해당되는 후보들을 제거한다. 문장에 나타나는 인물명 후보의 수에 따라 가중치를 부여하여 중요도를 계산하고, 중요도가 임계치 이상인 경우 주요 인물명으로 판단한다. 소설 300권을 대상으로 실험 결과 평균 85.97%의 정확도를 보였다. 인식된 주요 인물명은 향후 소설내 등장인물 간 연관관계를 파악하거나 등장인물의 행위, 성향 등을 파악하는데 활용될 수 있다.