• 제목/요약/키워드: Sentiment Lexicon

검색결과 53건 처리시간 0.024초

웰니스워드넷: 비정형데이터와 상황적 긍부정성에 기반하여 주관적 웰빙 상태를 무구속적으로 모니터링하기 위한 워드넷 개발 (WellnessWordNet: A Word Net for Unconstrained Subjective Well-Being Monitor ing Based on Unstructured Data and Contextual Polarity)

  • 송영은;남수현;권오병
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.1-21
    • /
    • 2016
  • 주관적 웰빙 서비스(subjective well-being service)는 Wellness IT의 주요 서비스이며 개인의 주관적 웰빙 상태를 무구속적이고 비용 효율적으로 측정하는 방법이 중요하다. 이를 위해 감성어휘사전을 활용할 수 있으나 감성어만으로 주관적 웰빙 상태를 측정할 수는 없으며 웰니스 어휘 사전이 별도로 구축될 필요가 있다. 더욱이 기존의 감성어휘사전은 동일한 감정어에 대해 한가지만의 감성값을 제공함으로써 그 용어를 사용한 사람의 특징에 따라 감성값이 변경될 수 있다는 점을 간과하고 있다. 따라서 본 연구의 목적은 현존하는 감성어휘사전 중에서 표현력이 가장 뛰어난 SenticNet을 기반으로 하여 SenticNet에서 제공하는 정보를 통해 스트레스, 우울, 분노, 행복감 등 웰니스 상태를 추정한 결과를 추가한 WellnessWordNet 을 개발하는 것이다. 또한 실제 사람들을 대상으로 WellnessWordNet 에 근거한 웰니스 상태 추정 정확도를 검증해 보았다. 본 논문의 독창성은 WellnessWordNet 웰니스 상태 언어에 대한 값을 제공할 뿐더러, 성별이나 연령과 같은 사람의 특성에 따라 다른 감성값을 제공하는 최초의 감성어휘사전이라는 것이다.

Social Media and Communication in Times of Public Health Crisis: Analysis of COVID-19 YouTube Vlog activities in the sharing of patient experience and information

  • 강복;손승혜;이귀옥
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.107-115
    • /
    • 2023
  • This study analyzes the content of YouTube Vlog videos created by patients of Coronavirus disease 2019 ("COVID-19") in South Korea and viewer comments on those videos. As this new infectious disease started to sweep the world in late 2019 and early 2020, the public started facing fear and uncertainty stemming from the lack of sufficient and accurate information about the virus. At the same time, as COVID-19 patients in South Korea were treated in isolation to prevent the spread of the virus, the patients themselves were experiencing anxiety and exclusion from the society. During this period, there was an increase in YouTube Vlog videos created by the patients in which they shared their experiences going through the treatment and recovery processes. To understand how these YouTube Vlog videos were being used by the patients to connect with the society and seek support in a state of isolation and anxiety, this study conducted a qualitative multi-case analysis of three sample YouTube Vlog video channels to analyze their content, as well as a lexicon-based sentiment analysis of viewer comments to understand the experiences and reactions of viewers. The patients' YouTube Vlog videos showed that they shared similar stages of progress, despite each emphasizing a different main theme. Overall, the tone of the viewer comments became increasingly positive over time, although with some variance among different patient cases and stages. The results confirmed that Vlogs of patients played a significant role in reducing the uncertainty around COVID-19 and strengthening social support for the patients. The findings of this study can improve an understanding of the psychological and behavioral aspects of patient experience in isolated treatment and the impact of shared communication among members of society in times of crisis.

빅데이터 기반의 정성 정보를 활용한 부도 예측 모형 구축 (Bankruptcy Prediction Modeling Using Qualitative Information Based on Big Data Analytics)

  • 조남옥;신경식
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.33-56
    • /
    • 2016
  • 대부분의 부도 예측에 관한 연구는 재무 변수를 중심으로 통계적 방법 또는 인공지능 기법을 적용하여 부도 예측 모형을 구축하였다. 그러나 재무비율과 같은 회계 정보를 이용한 부도 예측 모형은 재무 제표 결산 시점과 신용평가 시점 간 시차를 고려하지 않을 뿐만 아니라 해당 산업의 경제적 상황과 같은 외부 환경적인 요소를 반영하기 어렵다는 한계점이 존재하였다. 기업의 부도 여부를 예측하기 위해 정량 정보인 재무 변수만을 이용하는 것에 한계가 있음에도 불구하고 정성 정보를 부도 예측 모형에 반영한 연구는 아직 미흡한 실정이다. 본 연구에서는 재무 변수를 이용하는 기존 부도 예측 모형의 성과를 개선하기 위해 빅데이터 기반의 정성 정보를 추가적인 입력 변수로 활용하는 부도 예측 모형을 제안하였다. 제안 모형의 성과 향상은 정성 정보를 예측 모형에 통합시키기에 적합한 형태로 정보의 유형을 변환시킬 수 있는가에 따라 달려있다. 이에 본 연구에서는 정성 정보 처리를 위한 방법으로 빅데이터 분석 기법 중 하나인 텍스트 마이닝(Text Mining)을 활용하였다. 해당 산업과 관련된 경제 뉴스 데이터로부터 경제 상황에 대한 감성 정보를 추출하기 위해 도메인 중심의 감성 어휘 사전을 구축하고, 구축된 어휘 사전을 기반으로 감성 분석(Sentiment Analysis)을 수행하였다. 형태소 분석 등을 포함한 텍스트 전처리 과정을 거쳐 감성 어휘를 추출하고, 각 어휘에 대한 극성 및 감성 점수를 부여하였다. 분석 결과, 전통적 부도 예측 모형에 경제 뉴스 데이터에서 도출한 정성 정보를 반영하는 것은 모형의 성과를 개선하는 것으로 나타났다. 특히, 경제 상황에 대한 부정적 감정이 기업의 부도 여부를 예측하는 데 더욱 효과적임을 알 수 있었다.

오피니언 마이닝을 위한 VOC 데이타의 신뢰성 분석 (Reliability Analysis of VOC Data for Opinion Mining)

  • 김동원;유성진
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.217-245
    • /
    • 2016
  • 이 연구의 목적은 소셜 미디어에서 추출된 7개의 감성 도메인이 기업의 성과에 대한 영향 분석실험을 위한 데이터로서 적합한 지에 대해 신뢰성을 확인하고, 실제 고객감성이 자동차 시장점유율에 어떠한 영향을 미치는 지에 대하여 확인하기 위한 것이다. 본 연구는 총 3단계 구성으로서, 단계 1은 감성사전 구축 단계로서 미국 내 26개의 자동차 제조 회사의 고객의 소리 (VOC: Voice of Customer) 총 45,447개를 자동차 커뮤니티로부터 crawling하여 POS 정보 추출 후 감성사전을 구축하였고, 7개의 감성도메인을 만들었다. 단계 2는 신뢰성분석의 단계로서 자기상관관계분석과 주성분 분석 (PCA)을 통해 데이터의 실험 적합성을 검증하였다. 단계 3에서는 PCA를 근거로 2개의 선형회귀분석 모델을 구축하였고 GM, FCA, VOLKSWAGEN 등 3개의 기업을 선정, 2013년부터 2015년까지 7개 감성영역의 자동차 시장점유율에 대한 영향을 실험하였다. 실험 결과, 자기상관관계분석에 의해서 감성 데이터에 자기상관성과 시계열적 패턴이 관찰되었다. PCA 결과, 감성영역이 부정성, 긍정성, 중립성을 주성분으로 연결되어 있음이 확인되었다. VOC 감성 데이터에 대한 신뢰성을 바탕으로 한 2개 Model의 선형회귀분석 결과, 기업마다 시장점유율에 유의미한 영향을 미치는 감성들이 존재하며 Model 1과, 2의 감성영향력이 차이가 있고 중립성의 영향을 발견하였다. 본 연구를 통해, 데이터 상에 나타난 정보를 가진 감성이 과거 값에 기초하여 자동차 시장에서 변화를 수반할 수 있다는 것을 나타내고 있음을 확인하였다. 또한, 우리가 시장 데이터의 가용성을 적용하려고 할 때, 자동차 시장 관련 정보나 감성의 자기상관성을 잘 활용할 수 있다면, 감정 분석에 대한 연구에 큰 기여를 할 수 있을 뿐만 아니라, 실제 시장에서의 비지니스 성과에도 다양한 방법으로 기여할 수 있을 것으로 기대된다.

리뷰 데이터와 제품 정보를 이용한 멀티모달 감성분석 (Multimodal Sentiment Analysis Using Review Data and Product Information)

  • 황호현;이경찬;유진이;이영훈
    • 한국전자거래학회지
    • /
    • 제27권1호
    • /
    • pp.15-28
    • /
    • 2022
  • 최근 의류 등의 특정 쇼핑몰의 온라인 시장이 크게 확대되면서, 사용자의 리뷰를 활용하는 것이 주요한 마케팅 방안이 되었다. 이를 이용한 감성분석에 대한 연구들도 많이 진행되고 있다. 감성분석은 사용자의 리뷰를 긍정과 부정 그리고 필요에 따라서 중립으로 분류하는 방법이다. 이 방법은 크게 머신러닝 기반의 감성분석과 사전기반의 감성분석으로 나눌 수 있다. 머신러닝 기반의 감성분석은 사용자의 리뷰 데이터와 그에 대응하는 감성 라벨을 이용해서 분류 모델을 학습하는 방법이다. 감성분석 분야의 연구가 발전하면서 리뷰와 함께 제공되는 이미지나 영상 데이터 등을 함께 고려하여 학습하는 멀티모달 방식의 모델들이 연구되고 있다. 리뷰 데이터에서 제품의 카테고리와 사용자별로 사용되는 단어 등의 특징이 다르다. 따라서 본 논문에서는 리뷰데이터와 제품 정보를 동시에 고려하여 감성분석을 진행한다. 리뷰를 분류하는 모델로는 기본 순환신경망 구조에서 Gate 방식을 도입한 Gated Recurrent Unit(GRU), Long Short-Term Memory(LSTM) 그리고 Self Attention 기반의 Multi-head Attention 모델, Bidirectional Encoder Representation from Transformer(BERT)를 사용해서 각각 성능을 비교하였다. 제품 정보는 모두 동일한 Multi-Layer Perceptron(MLP) 모델을 이용하였다. 본 논문에서는 사용자 리뷰를 활용한 Baseline Classifier의 정보와 제품 정보를 활용한 MLP모델의 결과를 결합하는 방법을 제안하며 실제 데이터를 통해 성능의 우수함을 보인다.

신뢰성있는 온라인 고객 리뷰 텍스트 마이닝 기반 식당 개별 음식 아이템 평가 (Rating Individual Food Items of Restaurant Menu based on Online Customer Reviews using Text Mining Technique)

  • 무자밀 후세인 사이드;정선태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.389-392
    • /
    • 2020
  • The growth in social media, blogs and restaurant listing directories have led to increasing customer reviews about restaurants, their quality of food items and services available on the internet. These user reviews offer a massive amount of valuable information that can be used for various decision-making purposes. Currently, most food recommendation sites provide recommendation scores about restaurants rather than food items of the restaurant and the provided recommendation scores may be biased since they are calculated only from user reviews listed only in their sites. Usually, people wants a reliable recommendation about foods, not restaurant. In this paper, we present a reliable Korean food items rating method; we first extract food items by applying NER technique to restaurant reviews collected from many Korean restaurant recommendation web sites, blogs and web data. Then, we apply lexicon-based sentiment analysis on collected user reviews and predict people's opinions as sentiment polarity scores (+1 for positive; -1 for negative; 0 for neutral). Finally, by taking average of all calculated polarity scores about a food item, we obtain a rating to individual menu items of the restaurant. The proposed food item rating is more reliable since it does not depend on reviews of only one site.

소셜 감성과 암호화폐 가격 간의 관계 분석: 빅데이터를 활용한 계량경제적 분석 (An Analysis of Relationship between Social Sentiments and Cryptocurrency Price: An Econometric Analysis with Big Data)

  • 유상이;현지연;이상용
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.91-111
    • /
    • 2019
  • 2017년 말, 전 세계적으로 비트코인을 필두로 암호화폐에 대한 투자 열풍이 시작되었으며, 특히 한국은 그 중심에 서 있는 상황이었다. 한국의 투자자들이 그간 수익성이 있는 투자 기회를 찾기가 어려웠던 만큼 새로운 투자처에 투자심리가 몰린 것으로 보인다. 하지만 암호화폐에 대한 이러한 한국의 열기는 자산의 본질적인 가치에 기초한 투자가 아니라 단기적 차익 실현 기대 및 사회적 분위기에 따른 것이기 때문에 심리적 현상에 좌우되는 바가 크다고 할 수 있다. 따라서 본 연구에서는 이를 살펴보기 위해 트위터와 비트코인을 대표로 선정하여 사람들의 소셜 감성이 암호화폐에 미치는 영향을 분석해보고자 하였다. 데이터는 2017년 11월 1일부터 2018년 4월 30일까지 총 181일간 트위터상에 노출된 비트코인 관련 게시물과 빗썸/업비트의 비트코인 가격을 대상으로 수집하였다. 수집된 트위터 데이터는 감성 분석을 통해 중립어 및 긍·부정어로 정제해주었고, 정제된 중립어, 긍정어, 부정어는 비트코인 가격에 어떤 영향을 미치는지 확인하기 위해 회귀분석 모형에 투입하였다. 회귀분석을 통해 관계를 살펴본 후에는 Granger Causality test를 통해 인과관계의 존재 여부를 확인하였다. 그 결과, 긍정어는 비트코인 가격과 정의 관계로 나타났고, 부정어는 부의 관계로 나타났다. 또한 소셜감성과 비트코인 가격간에는 양방향의 인과관계가 있음을 확인하였다. 즉, 비트코인 가격 변동이 소셜감성에 영향을 미치기도 하지만, 동시에 소셜감성의 변화도 암호화폐 투자자들의 행동에 영향을 미칠 수 있음을 확인할 수 있었다.

소비자 분석을 위한 감성사전 모델링 (Sentiment lexicon modeling for consumer analysis)

  • 이재웅;윤현노;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.

준지도학습을 통한 세부감성 어휘 구축 (Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning)

  • 조요한;오효정;이충희;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-38
    • /
    • 2013
  • 소셜미디어를 통한 여론분석과 브랜드 모니터링에 대한 요구가 증가하면서, 빅데이터로부터 감성을 분석하는 기술에 대한 필요가 늘고 있다. 이를 위해, 본 논문에서는 단순 긍/부정 감성이 아닌 20종류의 세분화된 감성을 분석하기 위한 감성어휘 구축 알고리즘을 제시한다. 감성어휘 구축을 위해서는 준지도학습을 사용하였으며, 도메인에 특화되지 않은 일반 감성어휘를 구축하도록 학습되었다. 학습된 감성어휘를 인물, 스마트기기, 정책 등 다양한 도메인의 트위터 데이터에 적용하여 세부감성을 분석한 결과, 알고리즘의 특성상 재현율이 낮다는 한계를 가지고 있었으나, 대부분의 감성에 대해 높은 정확도를 지닌 감성어휘를 구축할 수 있었고, 감성을 직간접적으로 나타내는 표현들을 학습할 수 있었다.

  • PDF

Extracting and Clustering of Story Events from a Story Corpus

  • Yu, Hye-Yeon;Cheong, Yun-Gyung;Bae, Byung-Chull
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권10호
    • /
    • pp.3498-3512
    • /
    • 2021
  • This article describes how events that make up text stories can be represented and extracted. We also address the results from our simple experiment on extracting and clustering events in terms of emotions, under the assumption that different emotional events can be associated with the classified clusters. Each emotion cluster is based on Plutchik's eight basic emotion model, and the attributes of the NLTK-VADER are used for the classification criterion. While comparisons of the results with human raters show less accuracy for certain emotion types, emotion types such as joy and sadness show relatively high accuracy. The evaluation results with NRC Word Emotion Association Lexicon (aka EmoLex) show high accuracy values (more than 90% accuracy in anger, disgust, fear, and surprise), though precision and recall values are relatively low.