A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법

  • 신준수 (강원대학교 컴퓨터정보통신공학과) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학과)
  • Received : 2010.07.19
  • Accepted : 2010.09.27
  • Published : 2010.12.15

Abstract

Many sentiment categorization systems based on machine learning methods use morphological analyzers in order to extract linguistic features from sentences. However, the morphological analyzers do not generally perform well in a customer review domain because online customer reviews include many spacing errors and spelling errors. These low performances of the underlying systems lead to performance decreases of the sentiment categorization systems. To resolve this problem, we propose a feature extraction method based on simple longest matching of Eojeol (a Korean spacing unit) and phoneme patterns. The two kinds of patterns are automatically constructed from a large amount of POS (part-of-speech) tagged corpus. Eojeol patterns consist of Eojeols including content words such as nouns and verbs. Phoneme patterns consist of leading consonant and vowel pairs of predicate words such as verbs and adjectives because spelling errors seldom occur in leading consonants and vowels. To evaluate the proposed method, we implemented a sentiment categorization system using a SVM (Support Vector Machine) as a machine learner. In the experiment with Korean customer reviews, the sentiment categorization system using the proposed method outperformed that using a morphological analyzer as a feature extractor.

기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

Keywords

References

  1. J. Hwang and Y. Ko, "A Korean Document Sentiment Classification System based on Semantic Properties of Sentirnent Words," Journal of KIISE : Software and Applications, vol.37, no.4, pp.317-322, Apr. 2010. (in Korean)
  2. H. Yune, H. Kim and J. Chang, "An Efficient Search Method of Product Reviews using Opinion Mining Techniques," Journal of KIISE : Computing Practices and Letter, vol.16, no.2, pp.222-226, Feb. 2010. (in Korean)
  3. J. Myung, D. Lee and S. Lee, "A Korean Product Review Analysis System using a Semi-Automatically Constructed Semantic Dìctionary," Journal of KIISE : Software and Applications, vol.35, no.6, pp.392-403, Jun. 2008. (in Korean)
  4. J. Shin, J. Lee and H. Kim, "Sentiment Categorization of Korean Customer Reviews using CRFs," Proc. HCLT(Human & Cognitive Language Technology) vol.20, no. 1(C), pp.58-62, 2008. (in Korean)
  5. M. Bae and J. Cha "Comments Classification System using Topic Signature," Journal of KIISE Sofrware and Applications, vol.35, no.12, pp.774- 779, Dec. 2008. (in Korean)
  6. S. Kim, S. Park, S. Park, S. Lee and K. Kim, "A Syllable Kernel based Sentiment Classification for Movie Reviews," Journal of KIISS, vol.20, no.2, pp.202-207, Jun. 2010. (jn Korean) https://doi.org/10.5391/JKIIS.2010.20.2.202
  7. A. Esuli, F. Sebastiani, "PageRanking WordNet Synsets: An Application to Opinion Mining," In Proceedings of the ACL, pp.424-431, 2007.
  8. S.M. Kim and E. Hovy, "Determining the Sentiment of Opinions," In Proceedings of the COLING conference, pp.1367-1373, 2004.
  9. http:νwww.sejong.or.kr
  10. http://shopping.naver.com
  11. B. Pang, L. Lee and S. Vaithyanathan, "Thumbs up? Sentirnent CIassification Using Machine Learning Techniques," In Proceedings od the EMNLP, pp.79-86, 2002.