Constructing an Evaluation Set for Korean Sentiment Analysis Systems Incorporating the Category and the Strength of Sentiment

감성 강도를 고려한 감성 분석 평가집합 구축

  • 김도연 (전남대학교 전자컴퓨터공학과) ;
  • 오영 (전남대학교 전자컴퓨터공학과) ;
  • 박혁로 (전남대학교 전자컴퓨터공학과)
  • Received : 2012.08.23
  • Accepted : 2012.10.10
  • Published : 2012.11.28


Sentiment analysis is concerned with extracting and analyzing different kinds of user sentiment expressed in a variety of social media such as blog and twitter. Although sentiment analysis techniques are actively studied for these days, evaluation sets are not developed yet for Korean sentiment analysis. In this paper, we constructed an evaluation set for Korean sentiment analysis. To evaluate sentiment analysis systems more throughly, each sentence in our evaluation set is tagged with the polarity of the sentiment as well as the category and the strength of the sentiment. We divide kinds of sentiment into 7 positive categories and 15 negative categories. Each category is given the strength of the sentiment from 1 to 3. Our evaluation set consists of 3,270 sentences extracted from various social media. For each sentence, 5 human taggers assigned the category and the strength of the sentiment expressed in the sentence. The ratio of inter-taggers agreement was 93% in the polarity, 70% in the category, 58% in the strength of sentiment. The ratio of inter-taggers agreement our evaluation set is a bit higher than other evaluation sets developed for German and Spanish. This result shows our evaluation set can be used as a reliable resource for the evaluation of sentiment analysis systems.

감성 분석은 블로그와 트위터 같은 다양한 소셜 미디어에서 사용자들이 표현하는 감정의 종류를 분석하고 추출하는 연구이다. 현재 감성 분석 연구는 꾸준히 계속되고 있지만, 한국어의 감성 분석 평가 집합은 아직 없다. 본 논문에서는 감성 분석을 평가할 수 있는 평가집합을 구축한다. 평가집합에서는 사용자의 감성에 대한 극성뿐만 아니라 감성의 종류와 강도까지 고려한 평가집합을 구축하였다. 이를 위해 감성의 종류는 긍정에서 7가지의 범주와 부정에서 15가지의 범주를 나누고, 각 범주별로 1~3까지의 강도를 설정하였다. 또한 각 범주에 속하는 어휘에 대해서도 1~3까지의 강도를 설정하였다. 평가집합의 데이터는 다양한 소셜 미디어에서 3,270 문장을 추출하여 구축하였으며, 각 문장에 대해 5 명이 감성의 종류와 강도를 태깅하였다. 구축한 평가집합에서 5명의 일치도는 극성의 경우 93 %, 감성의 종류는 70 %, 강도는 58 % 로 나타났다. 이는 독일어와 스페인어의 평가 집합 보다 일치도가 높게 나타났다. 이 결과는 제안한 평가 집합이 신뢰할 만한 자원으로 다른 감성 분석 시스템의 평가데이터로 사용될 수 있음을 보여준다.



  1. B. Pang, and L. Lee, "Opinion Mining and Sentiment Analysis," Foundations and Trends in Information Retrieval: Vol.2, No.1-2, pp.1-135, 2008.
  2. 김정호, 김명규, 차명훈, 인주호, 채수환, "한국어 특성을 고려한 감성 분류", 한국감성과학회지 제13권, 제3호, pp.449-458, 2010.
  3. H. Tang, S. Tan, and X. Cheng, " A survey on sentiment detection of reviews," Expert Systems with Applications, Vol.36, pp.10760-10773, 2009.
  4. 김은영, 국어 감정 동사 연구, 전남대학교 대학원, 박사학위논문, 2004.
  5. P. Harland, "HOW THE BRAIN FEELS," Emotion and Cognition in Neuro-Linguistic Psychotherapy, Rapport, Journal of the Association for NLP (UK), Issue 57, 2002.
  6. R. Plutchik and H. Kellerman, Emotion: Theory, research, and experience: Vol.1, Theories of emotion.1, New York: Academic, 1980.
  10. 김기홍, "감정언어와 그의 문법성 고찰", 동서문화 11, pp.161-181, 1979.
  11. C. E. Osgood,, "Cross-Cultural comparability in Attitude Measurement via Muttilingual Semantic Differentials," in Social Psychology, pp.95-106, 1965.
  12. 손춘섭, "정도부사의 의미와 기능에 대한 고찰," 한국어의미학회, 한국어의미학, 제9권, pp.97-130, 2001.
  13. J. M. Schulz, C. Womser-Hacker, and T. Mandl, "Multilingual corpus development for opinion mining," In Proc. of LREC'10, pp.3409-3412, 2010.
  14. 김재원, 곽훈성, 장재우, "감성어의 비중처리와 퍼지추론에 의한 평가 방법," 한국콘텐츠학회논문지, 제9권, 제1호, pp.30-35, 2011.