한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
- /
- Pages.56-60
- /
- 2009
- /
- 2005-3053(pISSN)
문자열 커널을 이용한 인터넷 영화평의 감정 분석
A Sentiment Analysis of Internet Movie Reviews Using String Kernels
- 김상도 (경북대학교 컴퓨터공학과) ;
- 윤희근 (경북대학교 컴퓨터공학과) ;
- 박성배 (경북대학교 컴퓨터공학과) ;
- 박세영 (경북대학교 컴퓨터공학과) ;
- 이상조 (경북대학교 컴퓨터공학과)
- Kim, Sang-Do (Department of Computer Engineering, Kyungpook National University) ;
- Yoon, Hee-Geun (Department of Computer Engineering, Kyungpook National University) ;
- Park, Seong-Bae (Department of Computer Engineering, Kyungpook National University) ;
- Park, Se-Young (Department of Computer Engineering, Kyungpook National University) ;
- Lee, Sang-Jo (Department of Computer Engineering, Kyungpook National University)
- 발행 : 2009.10.09
초록
오늘날 인터넷은 개인의 감정, 의견을 서로 공유할 수 있는 공간이 되고 있다. 하지만 인터넷에는 너무나 방대한 문서가 존재하기 때문에 다른 사용자들의 감정, 의견 정보를 개인의 의사 결정에 활용하기가 쉽지 않다. 최근 들어 감정이나 의견을 자동으로 추출하기 위한 연구가 활발하게 진행되고 있으며, 감정 분석에 관한 기존 연구들은 대부분 어구의 극성(polarity) 정보가 있는 감정 사전을 사용하고 있다. 하지만 인터넷에는 나날이 신조어가 새로 생기고 언어 파괴 현상이 자주 일어나기 때문에 사전에 기반한 방법은 한계가 있다. 본 논문은 감정 분석 문제를 긍정과 부정으로 구분하는 이진 분류 문제로 본다. 이진 분류 문제에서 탁월한 성능을 보이는 Support Vector Machines(SVM)을 사용하며, 문서들 간의 유사도 계산을 위해 문장의 부분 문자열을 비교하는 문자열 커널을 사용한다. 실험 결과, 실제 영화평에서 제안된 모델이 비교 대상으로 삼은 Bag of Words(BOW) 모델보다 안정적인 성능을 보였다.