• 제목/요약/키워드: Sentiment Classification

검색결과 166건 처리시간 0.036초

기계학습을 이용한 단문 오피니언 문서의 효율적 검색 기법 (Efficient Retrieval of Short Opinion Documents Using Learning to Rank)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.117-126
    • /
    • 2013
  • 최근 들어 트위터나 페이스북과 같은 SNS가 대중화되면서, 오피니언 마이닝에 관한 연구가 활발히 진행되고 있다. 그러나 현재의 오피니언 마이닝 연구는 대부분 감성분류나 특징선택 방법에 중점을 두고 있으며, 오피니언 문서의 검색에 관한 연구는 아직 미진한 실정이다. 본 논문에서는 단문으로 구성된 오피니언 문서로부터 사용자가 원하는 문서들을 효율적으로 검색하는 기법을 제안한다. 제안된 방법에서는 기존의 감성분류 방법을 활용함과 동시에 문서의 질적 평가를 위해 여러 가지 특징들을 적용한다. 검색 모델을 생성하기 위해 기계학습 기반 랭킹 기법을 활용하며, 감성 분류 모델을 기계학습 랭킹 모델에 통합하는 방법을 사용한다. 또한 실험을 통하여 제안된 방법이 오피니언 검색에 효율적으로 적용될 수 있음을 보여준다.

Sentiment Analysis Main Tasks and Applications: A Survey

  • Tedmori, Sara;Awajan, Arafat
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.500-519
    • /
    • 2019
  • The blooming of social media has simulated interest in sentiment analysis. Sentiment analysis aims to determine from a specific piece of content the overall attitude of its author in relation to a specific item, product, brand, or service. In sentiment analysis, the focus is on the subjective sentences. Hence, in order to discover and extract the subjective information from a given text, researchers have applied various methods in computational linguistics, natural language processing, and text analysis. The aim of this paper is to provide an in-depth up-to-date study of the sentiment analysis algorithms in order to familiarize with other works done in the subject. The paper focuses on the main tasks and applications of sentiment analysis. State-of-the-art algorithms, methodologies and techniques have been categorized and summarized to facilitate future research in this field.

재무분야 감성사전 구축을 위한 자동화된 감성학습 알고리즘 개발 (Developing the Automated Sentiment Learning Algorithm to Build the Korean Sentiment Lexicon for Finance)

  • 조수지;이기광;양철원
    • 산업경영시스템학회지
    • /
    • 제46권1호
    • /
    • pp.32-41
    • /
    • 2023
  • Recently, many studies are being conducted to extract emotion from text and verify its information power in the field of finance, along with the recent development of big data analysis technology. A number of prior studies use pre-defined sentiment dictionaries or machine learning methods to extract sentiment from the financial documents. However, both methods have the disadvantage of being labor-intensive and subjective because it requires a manual sentiment learning process. In this study, we developed a financial sentiment dictionary that automatically extracts sentiment from the body text of analyst reports by using modified Bayes rule and verified the performance of the model through a binary classification model which predicts actual stock price movements. As a result of the prediction, it was found that the proposed financial dictionary from this research has about 4% better predictive power for actual stock price movements than the representative Loughran and McDonald's (2011) financial dictionary. The sentiment extraction method proposed in this study enables efficient and objective judgment because it automatically learns the sentiment of words using both the change in target price and the cumulative abnormal returns. In addition, the dictionary can be easily updated by re-calculating conditional probabilities. The results of this study are expected to be readily expandable and applicable not only to analyst reports, but also to financial field texts such as performance reports, IR reports, press articles, and social media.

엔트로피 점수를 이용한 감성분석 분류알고리즘의 수행도 평가 (Evaluation of Classification Algorithm Performance of Sentiment Analysis Using Entropy Score)

  • 박만희
    • 한국정보통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1153-1158
    • /
    • 2018
  • 다양한 온라인 고객 평가 및 소셜 미디어 정보는 고객의 의사결정에 영향을 미치기 때문에 기업에게 매우 중요한 정보 출처라고 할 수 있다. 설문 조사를 통해 고객의 다양한 요구와 불만 사항을 파악하는 데는 많은 비용과 시간적인 제약이 발생하고 있다. 온라인 쇼핑몰의 고객 후기 데이터는 제품에 대한 고객들의 감성을 분석할 수 있는 이상적인 자료를 제공하고 있다. 본 연구에서는 삼성과 애플 스마폰에 대한 감성분석을 위해 아마존 쇼핑몰로부터 고객 리뷰 데이터를 수집하였다. 선행 연구에서 대표적인 감성분석 기법으로 사용된 5가지 분류 알고리즘을 적용하였다. 5가지 분류알고리즘은 support vector machines, bagging, random forest, classification or regression tree, maximum entropy 등이다. 본 연구에서는 분류 알고리즘의 수행도를 종합적으로 평가할 수 있는 entropy score를 제안하였다. Entropy score를 이용하여 5가지 알고리즘을 평가한 결과에 따르면 support vector machines 알고리즘의 entropy score가 가장 높은 것으로 분석되었다.

상품 리뷰 요약에서의 문맥 정보를 이용한 의견 분류 방법 (A Sentiment Classification Method Using Context Information in Product Review Summarization)

  • 양정연;명재석;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.254-262
    • /
    • 2009
  • e비즈니스가 활발히 이루어지면서 소비자들은 온라인 쇼핑몰올 통해 수많은 상품을 접할 수 있게 되었고, 상품구매 시 다른 사람들의 리뷰를 참고하게 되었다. 하지만, 리뷰의 수도 많아짐에 따라 소비자가 모든 리뷰들을 살펴보기가 힘들다는 문제점이 대두되었으며 이를 해결하기 위해서 리뷰의 상품에 대한 평가를 요약하고 성향을 파악하는 오피니언 마이닝 연구가 나타나게 되었다. 본 논문에서는 상품리뷰를 대상으로 오피니언 마이닝을 수행하는 경우 어휘의 의견 성향을 파악할 때, 문맥정보를 활용하여 기존의 의견분류방법 보다 좀 더 정확한 의견 판단이 가능한 방법에 대해 다루고 있다. 이를 위해, 어휘가 사용될 때의 문맥정보를 정의하고 이를 의견분류에 적용하는 방법을 제안하였으며, 실험을 통하여 기존 연구 보다 상황별 알맞은 의견분류가 가능함을 보였다. 또한 수작업으로 말뭉치의 핵심 어휘들을 정의했던 기존 연구들에서의 방식에서 벗어나, 리뷰본문과 리뷰점수를 활용하여 자동으로 상황에 맞는 말뭉치를 구축하는 방법도 제안하였다. 이를 통해 상품리뷰에 나타난 어휘들의 문맥에 맞는 의미 성향을 정확하고 쉽게 판별해 낼 수 있게 되었다.

고객 감성 분석을 위한 학습 기반 토크나이저 비교 연구 (Comparative Study of Tokenizer Based on Learning for Sentiment Analysis)

  • 김원준
    • 품질경영학회지
    • /
    • 제48권3호
    • /
    • pp.421-431
    • /
    • 2020
  • Purpose: The purpose of this study is to compare and analyze the tokenizer in natural language processing for customer satisfaction in sentiment analysis. Methods: In this study, a supervised learning-based tokenizer Mecab-Ko and an unsupervised learning-based tokenizer SentencePiece were used for comparison. Three algorithms: Naïve Bayes, k-Nearest Neighbor, and Decision Tree were selected to compare the performance of each tokenizer. For performance comparison, three metrics: accuracy, precision, and recall were used in the study. Results: The results of this study are as follows; Through performance evaluation and verification, it was confirmed that SentencePiece shows better classification performance than Mecab-Ko. In order to confirm the robustness of the derived results, independent t-tests were conducted on the evaluation results for the two types of the tokenizer. As a result of the study, it was confirmed that the classification performance of the SentencePiece tokenizer was high in the k-Nearest Neighbor and Decision Tree algorithms. In addition, the Decision Tree showed slightly higher accuracy among the three classification algorithms. Conclusion: The SentencePiece tokenizer can be used to classify and interpret customer sentiment based on online reviews in Korean more accurately. In addition, it seems that it is possible to give a specific meaning to a short word or a jargon, which is often used by users when evaluating products but is not defined in advance.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.

오피니언 마이닝을 활용한 블로그의 극성 분류 기법 (The Blog Polarity Classification Technique using Opinion Mining)

  • 이종혁;김원상;박제원;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.559-568
    • /
    • 2014
  • 기존의 감정분석을 통한 극성 분류는 주로 평점을 기반으로 하는 상품평을 기준으로 문장규칙을 이용하여 분석해왔다. 이러한 분석방법은 평점이 없는 블로그 같은 경우 적용되기 어려움 점이 있고 댓글 아르바이트나 관리자에 의해 상품평이 조작될 가능성이 있어서 상품평 만으로는 상품, 매장에 대한 의견을 파악하기에는 어려움이 있다. 이러한 문제점을 고려할 때 개인들의 솔직한 의견이 담겨 있는 블로그를 분석하여 극성을 분류하면 상품, 매장에 대한 올바른 이해가 가능하다. 본 논문은 도메인별로 블로그 글에 대한 고빈도 단어를 추출하여 주제어를 선정하고, 선정된 주제어를 기준으로 제안하는 감정분석 기법을 적용하여 블로그 글에 대한 극성을 분류한다. 감정분석 기법의 성능을 평가하기 위하여 정보 검색 분야에서 사용되는 측정지표 Precision, Recall, F-score를 사용하여 본 연구의 극성 분류기법의 유용성을 검증한다. 평가 결과 기존의 상품평을 문장규칙을 이용하여 분석하여 극성 분류를 하는 기법들에 비해서 제안한 감정분석 기법을 적용할 경우에 우수한 성능으로 극성 분류를 하는 것으로 나타났다.

Intensified Sentiment Analysis of Customer Product Reviews Using Acoustic and Textual Features

  • Govindaraj, Sureshkumar;Gopalakrishnan, Kumaravelan
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.494-501
    • /
    • 2016
  • Sentiment analysis incorporates natural language processing and artificial intelligence and has evolved as an important research area. Sentiment analysis on product reviews has been used in widespread applications to improve customer retention and business processes. In this paper, we propose a method for performing an intensified sentiment analysis on customer product reviews. The method involves the extraction of two feature sets from each of the given customer product reviews, a set of acoustic features (representing emotions) and a set of lexical features (representing sentiments). These sets are then combined and used in a supervised classifier to predict the sentiments of customers. We use an audio speech dataset prepared from Amazon product reviews and downloaded from the YouTube portal for the purposes of our experimental evaluations.

감성분석 결과와 사용자 만족도와의 관계 -기상청 사례를 중심으로- (Relationship between Result of Sentiment Analysis and User Satisfaction -The case of Korean Meteorological Administration-)

  • 김인겸;김혜민;임병환;이기광
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.393-402
    • /
    • 2016
  • 기상청에서 현재 시행되고 있는 만족도 설문조사의 한계를 보완하기 위해 SNS를 통한 감성분석이 활용될 수 있다. 감성분석은 2011~2014년 동안 '기상청'을 언급한 트위터를 수집하여 나이브 베이즈 방법으로 긍정, 부정, 중립 감성을 분류하였다. 기본적인 나이브 베이즈 방법에 긍정, 부정, 중립의 각 감성에서만 출현한 형태소들로 추가사전을 만들어 감성분석의 정확도를 향상시키는 방법을 제안하였다. 분석결과 기본적인 나이브 베이즈 방법으로 감성을 분류할 경우 약 75%의 정확도로 학습데이터를 재현한데 반해 추가 사전을 적용할 경우 약 97%의 정확성을 보였다. 추가사전을 활용하여 검증자료의 감성을 분류한 결과 약 75%의 분류 정확도를 보였다. 낮은 분류 정확도는 향후 기상 관련의 다양한 키워드를 포함시켜 학습데이터 양을 늘려 감성사전의 질을 높임과 동시에 상시적인 사전의 업데이트를 통해 개선될 수 있을 것이다. 한편, 개별 어휘의 사전적 의미에 기반한 감성분석과 달리 문장의 의미에 기반하여 감성을 분류할 경우 부정적 감성 비율의 증가와 만족도 변화 추이를 설명할 수 있을 것으로 보여 향후 설문조사를 보완할 수 있는 좋은 수단으로 SNS를 통한 감성분석이 활용될 수 있을 것으로 사료된다.