Automatic Classification of Korean Movie Reviews Using a Word Pattern Frequency

단어 패턴 빈도를 이용한 한국어 영화평 자동 분류기법

  • Chang, Jae-Young (Department of Computer Engineering Hansung University) ;
  • Kim, Jung-Min (Department of Computer Engineering Hansung University) ;
  • Lee, Sin-Young (Department of Computer Engineering Hansung University)
  • 장재영 (한성대학교 컴퓨터공학과) ;
  • 김정민 (한성대학교 컴퓨터공학과) ;
  • 이신영 (한성대학교 컴퓨터공학과)
  • Published : 2012.06.22

Abstract

데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내의 학계 및 기업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 자동적으로 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 정확한 분류 정확도 보이지 않고 있다. 그 이유는 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어 패턴의 빈도만을 고려한 영화평 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화하여 패턴들의 빈도로 학습한 후 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 실험을 통해 제안된 기법의 정확도를 평가한다.

Keywords

Acknowledgement

Supported by : 한국연구재단