Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구

  • Shin, Donghyok (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Kim, Sairom (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Cho, Donghee (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Nguyen, Minh Dieu (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Park, Soongang (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Eo, Keonjoo (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Nam, Jeesun (DICORA Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies)
  • 신동혁 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 김새롬 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 조동희 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 뉘엔 민디오 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 박순강 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 어건주 (한국외국어대학교 언어인지과학과 DICORA) ;
  • 남지순 (한국외국어대학교 언어인지과학과 DICORA)
  • Published : 2016.10.07

Abstract

본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

Keywords