Abstract
Identifying the referents of omitted elements in a text is an important task to many natural language processing applications such as machine translation, information extraction and so on. These omitted elements are often called zero anaphors or zero pronouns, and are regarded as one of the most common forms of reference. However, since all zero elements do not refer to explicit objects which occur in the same text, recent work on zero anaphora resolution have attempted to identify the anaphoricity of zero pronouns. This paper focuses on intra-sentential anaphoricity determination of subject zero pronouns that frequently occur in Korean. Unlike previous studies on pair-wise comparisons, this study attempts to determine the intra-sentential anaphoricity of zero pronouns by learning directly the structure of clauses in which either non-anaphoric or inter-sentential subject zero pronouns occur. The proposed method outperforms baseline methods, and anaphoricity determination of zero pronouns will play an important role in resolving zero anaphora.
문서에서 생략된 요소가 지시하는 대상을 식별해 내는 작업은 기계 번역, 정보추출 등과 같은 자연언어처리 분야의 다양한 응용들을 위해 필요하다. 문장에서 생략된 요소들은 영조응사, 영대명사 등으로 불리며, 지시(reference)의 한 유형으로 간주되고 있지만, 모든 영형이 문서에서 명확하게 언급된 지시 대상을 지시하지는 않는다. 이에 영형의 조응성을 결정하려는 연구가 최근 진행되고 있으며, 본 논문에서는 한국어에서 가장 빈번하게 나타나는 영형 주어(subject zero pronouns)의 문장 내 조응성 결정에 초점을 맞춘다. 주어진 영형과 선행사 후보들 간의 쌍대 비교(pairwise comparison)에 기반한 기존 연구와 달리, 본 논문은 비조응적 혹은 문장 간에서 해결 가능한 영형이 나타난 절의 구조를 직접 학습함으로써 영형의 문장 내 조응성을 결정한다. 실험에서 제안한 방법은 베이스라인보다 나은 성능을 보였으며, 영형의 조응성 결정은 향후 영형 조응어 해석에 긍정적인 영향을 줄 수 있을 것으로 기대된다.