• 제목/요약/키워드: Sentiment Polarity

검색결과 72건 처리시간 0.025초

구문분석과 기계학습 기반 하이브리드 텍스트 논조 자동분석 (Hybrid Approach to Sentiment Analysis based on Syntactic Analysis and Machine Learning)

  • 홍문표;신미영;박신혜;이형민
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권2호
    • /
    • pp.159-181
    • /
    • 2010
  • This paper presents a hybrid approach to the sentiment analysis of online texts. The sentiment of a text refers to the feelings that the author of a text has towards a certain topic. Many existing approaches employ either a pattern-based approach or a machine learning based approach. The former shows relatively high precision in classifying the sentiments, but suffers from the data sparseness problem, i.e. the lack of patterns. The latter approach shows relatively lower precision, but 100% recall. The approach presented in the current work adopts the merits of both approaches. It combines the pattern-based approach with the machine learning based approach, so that the relatively high precision and high recall can be maintained. Our experiment shows that the hybrid approach improves the F-measure score for more than 50% in comparison with the pattern-based approach and for around 1% comparing with the machine learning based approach. The numerical improvement from the machine learning based approach might not seem to be quite encouraging, but the fact that in the current approach not only the sentiment or the polarity information of sentences but also the additional information such as target of sentiments can be classified makes the current approach promising.

  • PDF

빅데이터 분석기법을 활용한 아파트 가격 관련 뉴스 기사의 극성 분석 (A Study on the Polarity of Apartment Price News Using Big Data Analysis Method)

  • 조상연;홍은표
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.47-54
    • /
    • 2019
  • 본 연구는 빅데이터 분석 방법인 오피니언 마이닝을 사용하여 아파트 가격 관련 뉴스 기사의 극성을 확인하는 연구로 자료는 2012년, 2018년 2년간 네이버에 게시된 인터넷 뉴스 기사를 사용하였다. 감성분석 모형을 모델링하고 주제 지향형 감성사전 구축 방법을 제안하였다. 제안한 감성분석 모형을 통해 분석한 결과, 아파트 가격이 상승하는 시기에는 사회적 이슈 선정에 있어서 언론사의 성향에 따라 차이가 있는 것을 확인하였고 정부와 동일한 성향의 언론사에서 긍정 기사가 많은 것을 확인하였다. 부동산 분야에서 사용할 수 있는 감성분석 모형을 제시하고 부동산 관련 비정형 데이터의 극성을 분석하였다는 것에 의의가 있다. 향후 다양한 분야에 접목하기 위해서는 주제별 감성사전을 구축해야 하며 다양한 비정형 데이터를 수집하고 수집 기간을 확장하는 것이 필요하다.

웰니스워드넷: 비정형데이터와 상황적 긍부정성에 기반하여 주관적 웰빙 상태를 무구속적으로 모니터링하기 위한 워드넷 개발 (WellnessWordNet: A Word Net for Unconstrained Subjective Well-Being Monitor ing Based on Unstructured Data and Contextual Polarity)

  • 송영은;남수현;권오병
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.1-21
    • /
    • 2016
  • 주관적 웰빙 서비스(subjective well-being service)는 Wellness IT의 주요 서비스이며 개인의 주관적 웰빙 상태를 무구속적이고 비용 효율적으로 측정하는 방법이 중요하다. 이를 위해 감성어휘사전을 활용할 수 있으나 감성어만으로 주관적 웰빙 상태를 측정할 수는 없으며 웰니스 어휘 사전이 별도로 구축될 필요가 있다. 더욱이 기존의 감성어휘사전은 동일한 감정어에 대해 한가지만의 감성값을 제공함으로써 그 용어를 사용한 사람의 특징에 따라 감성값이 변경될 수 있다는 점을 간과하고 있다. 따라서 본 연구의 목적은 현존하는 감성어휘사전 중에서 표현력이 가장 뛰어난 SenticNet을 기반으로 하여 SenticNet에서 제공하는 정보를 통해 스트레스, 우울, 분노, 행복감 등 웰니스 상태를 추정한 결과를 추가한 WellnessWordNet 을 개발하는 것이다. 또한 실제 사람들을 대상으로 WellnessWordNet 에 근거한 웰니스 상태 추정 정확도를 검증해 보았다. 본 논문의 독창성은 WellnessWordNet 웰니스 상태 언어에 대한 값을 제공할 뿐더러, 성별이나 연령과 같은 사람의 특성에 따라 다른 감성값을 제공하는 최초의 감성어휘사전이라는 것이다.

주관적 웰빙 상태 측정을 위한 비정형 데이터의 상황기반 긍부정성 분석 방법 (Analyzing Contextual Polarity of Unstructured Data for Measuring Subjective Well-Being)

  • 최석재;송영은;권오병
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.83-105
    • /
    • 2016
  • 의료IT 서비스의 유망 분야인 정신건강 증진을 위한 주관적 웰빙 서비스(subjective well-being service) 구현의 핵심은 개인의 주관적 웰빙 상태를 정확하고 무구속적이며 비용 효율적으로 측정하는 것인데 이를 위해 보편적으로 사용되는 설문지에 의한 자기보고나 신체부착형 센서 기반의 측정 방법론은 정확성은 뛰어나나 비용효율성과 무구속성에 취약하다. 비용효율성과 무구속성을 보강하기 위한 온라인 텍스트 기반의 측정 방법은 사전에 준비된 감정어 어휘만을 사용함으로써 상황에 따라 감정어로 볼 수 있는 이른바 상황적 긍부정성(contextual polarity)을 고려하지 못하여 측정 정확도가 낮다. 한편 기존의 상황적 긍부정성을 활용한 감성분석으로는 주관적 웰빙 상태인 맥락에서의 감성분석을 할 수 있는 감정어휘사전이나 온톨로지가 구축되어 있지 않다. 더구나 온톨로지 구축도 매우 노력이 소요되는 작업이다. 따라서 본 연구의 목적은 온라인상에 사용자의 의견이 표출된 비정형 텍스트로부터 주관적 웰빙과 관련한 상황감정어를 추출하고, 이를 근거로 상황적 긍부정성 파악의 정확도를 개선하는 방법을 제안하는 것이다. 기본 절차는 다음과 같다. 먼저 일반 감정어휘사전을 준비한다. 본 연구에서는 가장 대표적인 디지털 감정어휘사전인 SentiWordNet을 사용하였다. 둘째, 정신건강지수를 동적으로 추정하는데 필요한 비정형 자료인 Corpora를 온라인 서베이로 확보하였다. 셋째, Corpora로부터 세 가지 종류의 자원을 확보하였다. 넷째, 자원을 입력변수로 하고 특정 정신건강 상태의 지수값을 종속변수로 하는 추론 모형을 구축하고 추론 규칙을 추출하였다. 마지막으로, 추론 규칙으로 정신건강 상태를 추론하였다. 본 연구는 감정을 분석함에 있어, 기존의 연구들과 달리 상황적 감정어를 적용하여 특정 도메인에 따라 다양한 감정 어휘를 파악할 수 있다는 점에서 독창성이 있다.

텍스트 감정분석을 이용한 IT 서비스 품질요소 분석 (Analysis of IT Service Quality Elements Using Text Sentiment Analysis)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제43권4호
    • /
    • pp.33-40
    • /
    • 2020
  • In order to satisfy customers, it is important to identify the quality elements that affect customers' satisfaction. The Kano model has been widely used in identifying multi-dimensional quality attributes in this purpose. However, the model suffers from various shortcomings and limitations, especially those related to survey practices such as the data amount, reply attitude and cost. In this research, a model based on the text sentiment analysis is proposed, which aims to substitute the survey-based data gathering process of Kano models with sentiment analysis. In this model, from the set of opinion text, quality elements for the research are extracted using the morpheme analysis. The opinions' polarity attributes are evaluated using text sentiment analysis, and those polarity text items are transformed into equivalent Kano survey questions. Replies for the transformed survey questions are generated based on the total score of the original data. Then, the question-reply set is analyzed using both the original Kano evaluation method and the satisfaction index method. The proposed research model has been tested using a large amount of data of public IT service project evaluations. The result shows that it can replace the existing practice and it promises advantages in terms of quality and cost of data gathering. The authors hope that the proposed model of this research may serve as a new quality analysis model for a wide range of areas.

사회적 감성과 주가의 상관성 분석 (Correlation Analysis of Social Sentiment and Stock Prices)

  • 윤홍원
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1593-1598
    • /
    • 2015
  • 본 논문에서는 사회적 감성과 주가의 상관성을 분석한다. 먼저, 주가 폭락 또는 폭등 기간과 그 직전의 극성을 각각 분석하고 이 결과를 이용하여 사회적 감성과 주가 사이의 상관관계를 분석한다. 본 연구를 위하여 과거의 다우존스산업평균지수 데이터를 수집하고 주가의 폭등과 폭락 시점을 검출한다. 검출한 시점에 근거하여 뉴욕 타임즈 기사를 수집하고 극성을 분석한다. 분석 결과에 의하면 주가 폭락 기간보다 폭등 기간에는 부정적 용어의 출현 빈도가 감소하고 긍정적 용어의 출현 빈도가 증가한다. 주가 폭락 또는 폭등 직전에는 부정적 용어의 출현 빈도와 긍정적 용어의 출현 빈도 사이에 차이가 커지 않다. 상관관계 분석에 의하면, 주가 폭락과 폭등 기간에는 사회적 감성과 주가 사이에 양의 상관관계를 보인다. 반면에, 주가 폭락과 폭등 직전에는 사회적 감성과 주가 사이에 유의한 수준의 상관관계를 나타내지 않는다.

감성 강도를 고려한 감성 분석 평가집합 구축 (Constructing an Evaluation Set for Korean Sentiment Analysis Systems Incorporating the Category and the Strength of Sentiment)

  • 김도연;오영;박혁로
    • 한국콘텐츠학회논문지
    • /
    • 제12권11호
    • /
    • pp.30-38
    • /
    • 2012
  • 감성 분석은 블로그와 트위터 같은 다양한 소셜 미디어에서 사용자들이 표현하는 감정의 종류를 분석하고 추출하는 연구이다. 현재 감성 분석 연구는 꾸준히 계속되고 있지만, 한국어의 감성 분석 평가 집합은 아직 없다. 본 논문에서는 감성 분석을 평가할 수 있는 평가집합을 구축한다. 평가집합에서는 사용자의 감성에 대한 극성뿐만 아니라 감성의 종류와 강도까지 고려한 평가집합을 구축하였다. 이를 위해 감성의 종류는 긍정에서 7가지의 범주와 부정에서 15가지의 범주를 나누고, 각 범주별로 1~3까지의 강도를 설정하였다. 또한 각 범주에 속하는 어휘에 대해서도 1~3까지의 강도를 설정하였다. 평가집합의 데이터는 다양한 소셜 미디어에서 3,270 문장을 추출하여 구축하였으며, 각 문장에 대해 5 명이 감성의 종류와 강도를 태깅하였다. 구축한 평가집합에서 5명의 일치도는 극성의 경우 93 %, 감성의 종류는 70 %, 강도는 58 % 로 나타났다. 이는 독일어와 스페인어의 평가 집합 보다 일치도가 높게 나타났다. 이 결과는 제안한 평가 집합이 신뢰할 만한 자원으로 다른 감성 분석 시스템의 평가데이터로 사용될 수 있음을 보여준다.

한국어 극성 사전 구축을 위한 크라우드소싱 기반 감성 단어 극성 태깅 게임 (A Crowdsourcing-based Emotional Words Tagging Game for Building a Polarity Lexicon in Korean)

  • 김준기;강신진;배병철
    • 한국게임학회 논문지
    • /
    • 제17권2호
    • /
    • pp.135-144
    • /
    • 2017
  • 감성 분석은 글을 통해 작성자의 주관적인 생각이나 느낌을 분석하는 방법으로 효과적인 감성 분석을 위해서는 감성 단어 극성 사전 구축이 필수적이다. 본 논문은 효율적인 한국어 극성 사전 구축을 위해 우리가 개발한 크라우드소싱 기반 게임을 소개한다. 먼저, 크롤러를 이용해 인터넷 커뮤니티에서 말뭉치들을 수집했고, Twitter 형태소를 이용해 수집한 말뭉치를 형태소별로 분류하고 단어화했다. 이 단어들은 모바일 플랫폼 기반 태깅 게임 형태로 제공되어 게임플레이를 통해 플레이어들이 자발적으로 단어들의 극성을 선택하고 결과가 데이터 베이스에 축적되도록 게임이 설계되었다. 현재까지 약 1200여개의 단어들의 극성을 태깅하였으며, 향후 좀 더 많은 감성 단어 데이터들을 축적함으로써 특히 게임 도메인에서 한국어 감성 분석 연구에 기여할 것으로 기대한다.

Stock News Dataset Quality Assessment by Evaluating the Data Distribution and the Sentiment Prediction

  • Alasmari, Eman;Hamdy, Mohamed;Alyoubi, Khaled H.;Alotaibi, Fahd Saleh
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.1-8
    • /
    • 2022
  • This work provides a reliable and classified stocks dataset merged with Saudi stock news. This dataset allows researchers to analyze and better understand the realities, impacts, and relationships between stock news and stock fluctuations. The data were collected from the Saudi stock market via the Corporate News (CN) and Historical Data Stocks (HDS) datasets. As their names suggest, CN contains news, and HDS provides information concerning how stock values change over time. Both datasets cover the period from 2011 to 2019, have 30,098 rows, and have 16 variables-four of which they share and 12 of which differ. Therefore, the combined dataset presented here includes 30,098 published news pieces and information about stock fluctuations across nine years. Stock news polarity has been interpreted in various ways by native Arabic speakers associated with the stock domain. Therefore, this polarity was categorized manually based on Arabic semantics. As the Saudi stock market massively contributes to the international economy, this dataset is essential for stock investors and analyzers. The dataset has been prepared for educational and scientific purposes, motivated by the scarcity of data describing the impact of Saudi stock news on stock activities. It will, therefore, be useful across many sectors, including stock market analytics, data mining, statistics, machine learning, and deep learning. The data evaluation is applied by testing the data distribution of the categories and the sentiment prediction-the data distribution over classes and sentiment prediction accuracy. The results show that the data distribution of the polarity over sectors is considered a balanced distribution. The NB model is developed to evaluate the data quality based on sentiment classification, proving the data reliability by achieving 68% accuracy. So, the data evaluation results ensure dataset reliability, readiness, and high quality for any usage.

정서 단어 부정어가 정서가의 극성 전환 및 약화에 미치는 영향 (The effect of negated emotional words on polarity reversal and weakening value in valence)

  • 이신영;함준석;김미선;방그린;고일주
    • 인지과학
    • /
    • 제23권1호
    • /
    • pp.97-107
    • /
    • 2012
  • 오피니언 마이닝과 정서 분석에 대한 기존 연구에서는 정서 단어에 부정어를 붙일 경우 긍정, 부정의 극성과 값이 뒤바뀐다고 가정하고 부정어를 처리하였다. 그러나 지금까지 정서 단어에 부정어가 발생했을 때 극성이 어느 정도 바뀌는지에 대한 정량적 연구는 없었다. 따라서 본 논문에서는 한국어 정서 단어와 그 부정형에 대해서 정서가와 각성 차원을 측정하였다. 결과, 정서 단어에 부정형이 올 경우 정서가와 각성 차원의 중간 수준을 기준으로 극성을 뒤바꾸고 값은 약 30~50% 약화되었다. 이 결과를 오피니언 마이닝과 정서 분석 연구에서 부정어를 처리하는 기준으로 제시하였다.

  • PDF