DOI QR코드

DOI QR Code

Comparative Study of Various Machine-learning Features for Tweets Sentiment Classification

트윗 감정 분류를 위한 다양한 기계학습 자질에 대한 비교 연구

  • 홍초희 (강원대학교 컴퓨터정보통신공학전공) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학전공)
  • Received : 2012.09.26
  • Accepted : 2012.11.02
  • Published : 2012.12.28

Abstract

Various studies on sentiment classification of documents have been performed. Recently, they have been applied to twitter sentiment classification. However, they did not show good performances because they did not consider the characteristics of tweets such as tweet structure, emoticons, spelling errors, and newly-coined words. In this paper, we perform experiments on various input features (emoticon polarity, retweet polarity, author polarity, and replacement words) which affect twitter sentiment classification model based on machine-learning techniques. In the experiments with a sentiment classification model based on a support vector machine, we found that the emoticon polarity features and the author polarity features can contribute to improve the performance of a twitter sentiment classification model. Then, we found that the retweet polarity features and the replacement words features do not affect the performance of a twitter sentiment classification model contrary to our expectations.

문서를 대상으로 한 다양한 감정 분류 연구가 진행되어 왔으며, 최근에는 트윗 감정 분류에 그대로 적용되고 있다. 그러나 이러한 연구들은 트윗의 구조, 이모티콘, 철자 오류 그리고 신조어와 같은 트윗의 특징을 고려하지 않아 좋은 성능을 보이지 못하고 있다. 본 논문에서는 기계학습을 기반으로 다양한 자질을(이모티콘 극성, 리트윗 극성, 사용자 극성, 대체 어휘)사용하여 실험하여 트윗 감정 분류 성능의 영향을 확인하였다. 기계 학습기 SVM(Support Vector Machine) 기반의 감정 분류 실험으로 이모티콘 극성 자질과 사용자 극성 자질이 트윗 감정 분류 모델의 성능 향상에 기여를 하는 것을 알 수 있었다. 이와 비교하여 리트윗 극성과 대체 어휘 자질은 트윗 감정 분류 모델에 큰 영향이 없는 것을 알 수 있었다.

Keywords

References

  1. L. Barbosa and J. Feng, "Robust sentiment detection on Twitter from biased and noisy data," In Proceedings of the 23rd International Confere-nce on Computational Linguistics, pp.36-44, 2010.
  2. http://www.bloter.net/archives/74190
  3. 홍초희, 김학수, "트윗 분류를 위한 효과적인 자질 추출", 한국정보과학회 학술발표논문집, 제38권, 제1호, pp.229-232, 2011.
  4. 신준수, 김학수, "강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법", 정보과학회논문지 소프트웨어 및 응용, 제37권, 제12호, pp.946-950, 2010.
  5. 황재원, 고영중, "감정 분류를 위한 한국어 감정 자질 추출 기법과 감정 자질의 유용성 평가", 인지과학, 제19권, 제4호, pp.499-517, 2008.
  6. H. Cui, V. Mittal, and M. Datar, "Comparative Expe- riments on Sentiment Classification for Online Product Reviews," In Proceedings of the 21st National Conference on Artificial Intelligence, Vol.2, pp.1265-1270, 2006.
  7. L. Jiang, M. Yu, M. Zhou, X. Liu, T. Zhao, "Target-dependent Twitter Sentiment Classification," In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp.151-160, 2011.
  8. W. Wu, B. Zhang, M. Ostendorf, "Automatic Generation of Personalized Annotation Tags for Twitter Users," In Proceedings of Human Language Technologies 2010, pp.689-692, 2010.
  9. A. Go, R. Bhayani, L. Huang, Twitter Sentiment Classification using Distant Supervision, CS224N Project Report Stanford, 2011.
  10. 김동균, 허지용, 조지훈, 박수영, 김용혁, "기계학습 기반의 감정 트위터 봇", 한국정보과학회 학술발표 논문집, 제38(2B)권, pp.379-382, 2011
  11. 홍초희, 김학수, "신뢰도 높은 트윗 감정 분류를 위한 하이브리드 자질 추출 기법", 강원대학교 정보통신논문지, 제16권, pp.38-41, 2012
  12. 박수영, 하용호, 김용혁, "트윗터 정보 검색 분야의 최근 연구들", 한국정보과학회 2010 한국컴퓨터종합학술대회 논문집, 제37권, 제2(C)호, pp.25-29, 2010.
  13. 최맹식, 김학수, "기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅", 정보처리학회논문지, 제18-B권, 제1호, pp.45-50, 2011. https://doi.org/10.3745/KIPSTB.2011.18B.1.045
  14. 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한국어 형태소 분석", 한국정보과학회논문지 소프트웨어 및 응용, 제31권, 제1호, pp.89-99, 2004.
  15. Z. Xue, D. Yin, and B. D. Davison, "Mormalizaing MicroText," In Proceedings of AAAI-11 workshop on Analyzing Microtext, pp.74-79, 2011.
  16. B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up? Sentiment Classification Using Machine Learning Techniques," In Proceedings of the EMNLP, pp.79-86, 2002.

Cited by

  1. An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter vol.17, pp.2, 2014, https://doi.org/10.9717/kmms.2014.17.2.232