DOI QR코드

DOI QR Code

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식

Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features

  • 강인수 (경성대학교 컴퓨터공학과)
  • Kang, In-Su (Computer Science and Engineering, Kyungsung University)
  • 투고 : 2015.05.04
  • 심사 : 2015.08.06
  • 발행 : 2015.08.31

초록

암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

Implicit citation sentence recognition is to locate citation sentences which lacks explicit citation markers, from articles' full-text. State-of-the-art approaches exploit word ngrams, clue words, researcher's surnames, mentions of previous methods, and distance relative to nearest explicit citation sentences, etc., reaching over 50% performance. However, most previous works have been conducted on English. As for Korean, a rule-based method using positive/negative clue patterns was reported to attain the performance of 42%, requiring further improvement. This study attempted to learn to recognize implicit citation sentences from Korean literatures' full-text using Korean lexical features. Different lexical feature units such as Eojeol, morpheme, and Eumjeol were evaluated to determine proper lexical features for Korean implicit citation sentence recognition. In addition, lexical features were combined with the position features representing backward/forward proximities to explicit citation sentences, improving the performance up to over 50%.

키워드

참고문헌

  1. H. Nanba, N. Kando, M. Okumura, "Classification of research papers using citation links and citation types: Towards automatic review article generation", Proc. of the 11th ASIS SIG/CR Classification Research Workshop, pp.117-134, 2000.
  2. A. Ritchie, S. Robertson, S. Teufel, "Comparing citation contexts for information retrieval", Proc. of the 17th ACM Conference on Information and Knowledge Management, pp.213-222, 2008. DOI: http://dx.doi.org/10.1145/1458082.1458113
  3. D. Kaplan, R. Iida, T. Tokunaga, "Automatic extraction of citation contexts for research paper summarization: a coreference-chain based approach", Proc. of the 2009 Workshop on Text and Citation Analysis for Scholarly Digital Libraries, pp.88-95, 2009. DOI: http://dx.doi.org/10.3115/1699750.1699764
  4. P. Sondhi, C. Zhai, "A constrained hidden Markov model approach for non-explicit citation context extraction", Proc. of the 2014 SIAM International Conference on Data Mining, pp.361-369, 2014. DOI: http://dx.doi.org/10.1137/1.9781611973440.41
  5. I. Kang, "A rule-based approach to identifying citation text from Korean academic literature", Journal of the Korean Society for information Management, 29(4), pp.43-60, 2012. DOI: http://dx.doi.org/10.3743/kosim.2012.29.4.043
  6. V. Qazvinian, D. R. Radev, "Identifying non-explicit citing sentences for citation-based summarization", Proc. of the 48th Annual Meeting of the Association for Computational Linguistics, pp.555-564, 2010.
  7. A. Athar, S. Teufel, "Detection of implicit citations for sentiment detection", Proc. of ACL-12 Workshop on Discovering Structure in Scholarly Discourse, pp.18-26, 2012.
  8. A. Abu-Jbara, J. Ezra, D. R. Radev, "Purpose and polarity of citation: towards NLP-based bibliometrics", Proc. of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.596-606, 2013.
  9. C-C Chang, C-J Lin, "LIBSVM : a library for support vector machines", ACM Transactions on Intelligent Systems and Technology, 2(3):27:1-27:27, 2011. Software available at http://www.csie.ntu.edu.tw/-cjlin/ libsvm DOI: http://dx.doi.org/10.1145/1961189.1961199