한국어 비교 문장 유형 분류를 위한 변환 기반 학습 기법

Transformation-based Learning for Korean Comparative Sentence Classification

  • 양선 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • 발행 : 2010.02.15

초록

본 논문은 비교마이닝(comparison mining)의 일환인 비교 문장 유형 자동 분류에 관하여 연구한다. 비교마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계를 분석하며, 크게 세 단계의 과정을 거치게 되는데 첫 번째 단계는 대용량의 문서에서 비교 문장만을 식별 후 추출해 내는 과정이고, 두 번째 단계는 추출된 비교 문장들을 비교 유형별로 분류하는 과정이며, 앞의 두 선행 과정이 끝나면 유형별로 비교 속성을 추출 및 비교 관계를 분석하는 세 번째 단계를 수행하게 된다. 본 연구에서는 변환 기반 학습(transformation-based learning) 기법을 이용하여 비교 문장들을 일곱 가지의 유형으로 자동 분류하는 두 번째 과제를 수행한다. 자연어 처리 분야 여러 부문에서 사용되고 있는 변환기반 학습은 오류를 감소시키는 최적의 규칙을 자동으로 생성하여 정답을 찾아가는 규칙 기반 학습 방법이다. 웹상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 유형 분류를 수행한 결과 정확도 80.01%의 성능으로 일곱 가지 유형을 분류할 수 있었다.

This paper proposes a method for Korean comparative sentence classification which is a part of comparison mining. Comparison mining, one area of text mining, analyzes comparative relations from the enormous amount of text documents. Three-step process is needed for comparison mining - 1) identifying comparative sentences in the text documents, 2) classifying those sentences into several classes, 3) analyzing comparative relations per each comparative class. This paper aims at the second task. In this paper, we use transformation-based learning (TBL) technique which is a well-known learning method in the natural language processing. In our experiment, we classify comparative sentences into seven classes using TBL and achieve an accuracy of 80.01%.

키워드

참고문헌

  1. N. Jindal, B. Liu, "Identifying Comparative Sentences in Text Documents," Proc. of the SIGIR, pp.244-251, 2006.
  2. S. Yang, Y. Jo, "Extracting Korean Comparative Sentences by Machine Learning Techniques," Proc. of the HCLT-2008, pp.182-287, 2008. (in Korean)
  3. N. Jindal, B. Liu, "Mining Comparative Sentences and Relations," Proc. of the AAAI, pp.1331-1336, 2006.
  4. E. Brill, "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging," Proc. of the Computational Linguistics, pp.543-565, 1995.
  5. L. Ramshaw and M. Marcus, "Text Chunking using Transformation-Based learning," Proc. of the 3th ACL workshop on Very Large Corpora, pp.82-94, 1995.
  6. W. J. Black, A. Vasilakopoulos, "Language-Independent Named Entity Classification by Modified Transformation-Based learning and by Decision Tree Induction," Proc. of the CoNLL, 2002.
  7. Y. Jang, An Information Extraction Method Using Transformation Based Learning, Sogang University Press, Seoul, 2006. (in Korean)
  8. G. Ha, Korean Modern Comparative Syntax, Pijbook Press, Seoul, 1999. (in Korean)
  9. G. Ha, "Research on Korean Equality Comparative Syntax," Proc. of the Association for Korean Linguistics, vol.5, pp.229-265, 1999. (in Korean)
  10. K. Oh, "The Difference between 'Man-kum' Comparative and 'Cheo-rum' Comparative," Proc. of the Society of Korean Semantics, vol.14, pp.197-221, 2004. (in Korean)
  11. I. Jeong. "Research on Korean Adjective Superlative Comparative Syntax," Proc. of the Korean Han-min-jok Eo-mun-hak, vol.36, pp.61-86, 2000. (in Korean)