A Korean Document Sentiment Classification System based on Semantic Properties of Sentiment Words

감정 단어의 의미적 특성을 반영한 한국어 문서 감정분류 시스템

  • Received : 2009.11.03
  • Accepted : 2010.01.15
  • Published : 2010.04.15

Abstract

This paper proposes how to improve performance of the Korean document sentiment-classification system using semantic properties of the sentiment words. A sentiment word means a word with sentiment, and sentiment features are defined by a set of the sentiment words which are important lexical resource for the sentiment classification. Sentiment feature represents different sentiment intensity in general field and in specific domain. In general field, we can estimate the sentiment intensity using a snippet from a search engine, while in specific domain, training data can be used for this estimation. When the sentiment intensity of the sentiment features are estimated, it is called semantic orientation and is used to estimate the sentiment intensity of the sentences in the text documents. After estimating sentiment intensity of the sentences, we apply that to the weights of sentiment features. In this paper, we evaluate our system in three different cases such as general, domain-specific, and general/domain-specific semantic orientation using support vector machine. Our experimental results show the improved performance in all cases, and, especially in general/domain-specific semantic orientation, our proposed method performs 3.1% better than a baseline system indexed by only content words.

본 논문은 감정단어(Sentiment Word)의 의미적 특성을 반영하여 한국어 문서 감정분류 시스템의 성능을 향상시킬 수 있는 방법을 제안한다. 감정단어는 감정을 가지는 단어를 의미하며, 감정단어들의 집합은 감정자질(Sentiment Feature)로써 감정분류를 위한 중요한 어휘 자원이다. 감정자질은 일반적으로 사용될 때와 특정 영역(Domain)에서 사용될 때에 그 감정 정도의 차이를 가진다. 감정자질이 일반적으로 사용될 때 그 감정 정도는 검색 엔진을 통해 얻을 수 있는 스니핏(Snippet)을 통해 추정할 수 있으며, 특정 영역에서 사용될 때의 감정 정도는 실험 말뭉치를 이용하여 추정할 수 있다. 이렇게 추정된 감정자질의 감정 정도 수치를 의미지향성이라고 하며, 문서내의 문장의 감정 강도를 추정하기 위해 이용된다. 문장의 감정 강도가 추정되면 문장 감정 강도를 감정자질의 가중치에 반영하게 된다. 본 논문은 지지 벡터 기계(Support Vector Machine)를 이용하여 일반적, 영역 의존적, 일반적/영역 의존적 의미지향성을 반영한 경우에 대해 성능을 평가한다. 평가 결과, 앞의 3가지 경우에 모두 성능 향상을 얻었으며 일반적/영역 의존적 의미지향성을 반영한 경우, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능 향상을 얻을 수 있었다.

Keywords

References

  1. B. Pang, L. Lee and S. Vaithyanathan, "Thumbs up? Sentiment Classification Using Machine Learning Techniques," In Proceedings of the EMNLP, pp.79-86, 2002.
  2. T. Mullen and N. Collier, "Sentiment Analysis using Support Vector Machines with Diverse Information Sources," In Proceedings of EMNLP, pp.412-418, 2004.
  3. V. Hatzivassiloglou and K. McKeown, "Predicting the semantic orientation of adjectives," In Proceedings of the 35th ACL/8th EACL, pp.174-181, 1997.
  4. P. Turney, "Thumbs up or thumbs down? Sentiment orientation applied to unsupervised classification of reviews," In Proceedings of the ACL, pp.417-424, 2002.
  5. P.D. Turney and M.L. Littman, "Measuring Praise and Criticism: Inference of Semantic Orientation from Association," In Proceedings of the ACM Transactions on Information Systems, pp.315-346, 2003.
  6. 황재원, 고영중, "문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템", 한국정보과학회논문지, 소프트웨어 및 응용, 제36권 제6호, pp.491-497, 2009.
  7. B. Pang and L. Lee, "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts," In Proceedings of the ACL, pp.271-278, 2004.
  8. P. Beineke and T. Hastie and S. Vaithyanathan, "The Sentimental Factor: Improving Review Classification via Human-Provided Information," In Proceedings of the ACL, pp.263-270, 2004.
  9. M. Gamon, "Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis," In Proceedings the ACL, pp.841-847, 2004.
  10. Y. Mao and G. Lebanon, "Isotonic Conditional Random Fields and Local Sentiment Flow," In Proceedings of the NIPS, 2007.
  11. Y. Choi, C. Cardie, E. Riloff, and S. Patwardhan, "Identifying sources of opinions with conditional random fields and extraction patterns," In Proceedings of the HLT/EMNLP, pp.355-362, 2005.
  12. M. Thomas, B. Pang, and L. Lee, "Get out the vote: Determining support or opposition from congressional floor-debate transcripts," In Proceedings of the EMNLP, pp.327-335, 2006.
  13. A. Esuli and F. Sebastiani, "Determining the Semantic Orientation of Terms through Gloss Classification," In Proceedings of the CIKM, pp.617-624, 2005.
  14. E. Riloff and J. Wiebe, "Learning extraction patterns for subjective expressions," In Proceedings of the EMNLP, pp.105-112, 2003.
  15. P. Turney and M. Littman, "Unsupervised learning of semantic orientation from a hundred-billonword corpus," Technical Report ERB-1094, National Research Council, Institute for Information Technology, 2002.
  16. S.M. Kim and E. Hovy, "Determining the Sentiment of Opinions," In Proceedings of the COLING conference, pp.1367-1373, 2004.
  17. A. Esuli and F. Sebastiani, "PageRanking WordNet Synsets: An Application to Opinoin Mining," In Proceedings of the ACL, pp.424-431, 2007.
  18. 황재원, 고영중, "감정 분류를 위한 한국어 감정 자 질 추출 기법과 감정 자질의 유용성 평가", 한국정보과학회논문지, 컴퓨팅의 실제 및 레터, 제14권 제3호, pp.336-340, 2008.
  19. Y. Ko, J. Park, and J, Seo, "Automatic Text Categorization using the Importance of Sentences," In Proceedings of the 19, IInternational Conference on COLING, pp.474-480, 2002.
  20. X. Bai, R. Padman and E. Airoldi, "Sentiment extraction from unstructured text using tabu search-enhanced Markov blanket," In Proceedings of the International Workshop on Mining for and from the Semantic Web, pp.24-35, 2004.
  21. T. Joachims, "Text Categorization with Support Vector Machines: Learning with Many relevant Features," In Proceedings of the ECML, pp.137-142, 1998.