• 제목/요약/키워드: Lexicon Analysis

검색결과 91건 처리시간 0.02초

감성 분석을 위한 어휘 통합 합성곱 신경망에 관한 연구 (A Study on Lexicon Integrated Convolutional Neural Networks for Sentiment Analysis)

  • 윤주성;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.916-919
    • /
    • 2017
  • 최근 딥러닝의 발달로 인해 Sentiment analysis분야에서도 다양한 기법들이 적용되고 있다. 이미지, 음성인식 분야에서 높은 성능을 보여주었던 Convolutional Neural Networks (CNN)은 최근 자연어처리 분야에서도 활발하게 연구가 진행되고 있으며 Sentiment analysis에도 효과적인 것으로 알려져 있다. 기존의 머신러닝에서는 lexicon을 이용한 기법들이 활발하게 연구되었지만 word embedding이 등장하면서 이러한 시도가 점차 줄어들게 되었다. 그러나 lexicon은 여전히 sentiment analysis에서 유용한 정보를 제공한다. 본 연구에서는 SemEval 2017 Task4에서 제공한 Twitter dataset과 다양한 lexicon corpus를 사용하여 lexicon을 CNN과 결합하였을 때 모델의 성능이 얼마큼 향상되는지에 대하여 연구하였다. 또한 word embedding과 lexicon이 미치는 영향에 대하여 분석하였다. 모델을 평가하는 metric은 positive, negative, neutral 3가지 class에 대한 macroaveraged F1 score를 사용하였다.

감정점수의 전파를 통한 한국어 감정사전 생성 (Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation)

  • 박호민;김창현;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.53-60
    • /
    • 2020
  • 감정분석은 문서 또는 대화상에서 주어진 주제에 대한 태도와 의견을 이해하는 과정이다. 감정분석에는 다양한 접근법이 있다. 그 중 하나는 감정사전을 이용하는 사전 기반 접근법이다. 본 논문에서는 널리 알려진 영어 감정사전인 VADER를 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어 사전을 제작한다. 제작된 이중언어 사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 그 이중언어 사전을 사용하여 한영 단어 그래프를 생성한다. 세 번째 단계는 생성된 단어 그래프 상에서 레이블 전파 알고리즘을 실행하여 새로운 감정사전을 구축한다. 이와 같은 과정으로 생성된 한국어 감정사전을 유용성을 보이려고 몇 가지 실험을 수행하였다. 본 논문에서 생성된 감정사전을 이용한 감정 분류기가 기존의 기계학습 기반 감정분류기보다 좋은 성능을 보였다. 앞으로 본 논문에서 제안된 방법을 적용하여 여러 언어의 감정사전을 생성하려고 한다.

Maximum Likelihood-based Automatic Lexicon Generation for AI Assistant-based Interaction with Mobile Devices

  • Lee, Donghyun;Park, Jae-Hyun;Kim, Kwang-Ho;Park, Jeong-Sik;Kim, Ji-Hwan;Jang, Gil-Jin;Park, Unsang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4264-4279
    • /
    • 2017
  • In this paper, maximum likelihood-based automatic lexicon generation using mixed-syllables is proposed for unlimited vocabulary voice interface for East Asian languages (e.g. Korean, Chinese and Japanese) in AI-assistant based interaction with mobile devices. The conventional lexicon has two inevitable problems: 1) a tedious repetition of out-of-lexicon unit additions to the lexicon, and 2) the propagation of errors during a morpheme analysis and space segmentation. The proposed method provides an automatic framework to solve the above problems. The proposed method produces a level of overall accuracy similar to one of previous methods in the presence of one out-of-lexicon word in a sentence, but the proposed method provides superior results with the absolute improvements of 1.62%, 5.58%, and 10.09% in terms of word accuracy when the number of out-of-lexicon words in a sentence was two, three and four, respectively.

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

Romanian-Lexicon-Based Sentiment Analysis for Assesing Teachers' Activity

  • Barila, Adina;Danubianu, Mirela;Gradinaru, Bogdanel
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.43-50
    • /
    • 2022
  • The students' feedback is important to measure and improve teaching performance. Many teacher performance evaluation systems are based on responses to closed question, but the free text answers can contain useful information which had to be explored. In this paper we present a lexicon-based sentiment analysis to explore students' text feedback. The data was collected from a system for the evaluation of teachers by students developed and used in our university. The students comments are in Romanian language so we built a Romanian sentiment word lexicon. We used this to categorize the feeback text as positive, negative or neutral. In addition, we added a new polarity - indifferent - in order to categorize blank and "I don't answer" responses.

Extracting Multiword Sentiment Expressions by Using a Domain-Specific Corpus and a Seed Lexicon

  • Lee, Kong-Joo;Kim, Jee-Eun;Yun, Bo-Hyun
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.838-848
    • /
    • 2013
  • This paper presents a novel approach to automatically generate Korean multiword sentiment expressions by using a seed sentiment lexicon and a large-scale domain-specific corpus. A multiword sentiment expression consists of a seed sentiment word and its contextual words occurring adjacent to the seed word. The multiword sentiment expressions that are the focus of our study have a different polarity from that of the seed sentiment word. The automatically extracted multiword sentiment expressions show that 1) the contextual words should be defined as a part of a multiword sentiment expression in addition to their corresponding seed sentiment word, 2) the identified multiword sentiment expressions contain various indicators for polarity shift that have rarely been recognized before, and 3) the newly recognized shifters contribute to assigning a more accurate polarity value. The empirical result shows that the proposed approach achieves improved performance of the sentiment analysis system that uses an automatically generated lexicon.

한국어 장소 리뷰를 이용한 공간 감성어 사전 구축 방법 (Method for Spatial Sentiment Lexicon Construction using Korean Place Reviews)

  • 이영민;권필;유기윤;김지영
    • 대한공간정보학회지
    • /
    • 제25권2호
    • /
    • pp.3-12
    • /
    • 2017
  • 위치 기반 서비스를 이용하여 자신이 방문한 장소에 대한 긍정 혹은 부정적 의견을 리뷰로 남기는 것이 일상화되고 있다. 실제 방문자가 작성한 장소 리뷰에 대한 감성분석 결과는 잠재적 소비자뿐 아니라 기업에게도 유용한 정보를 제공할 수 있다. 장소에 대한 감성분석을 실시하기 위해서는 감성분석의 기준이 되는 어휘에 대한 사전이 필요하다. 그러나 현재까지 장소를 표현하는 공간 감성어에 대한 사전이 구축된 바 없다. 이에 본 연구는 실제 방문자가 한국어로 작성한 장소 리뷰 데이터를 분석하여 공간 감성어 사전을 구축하는 방법을 제안하며, 여러 장소 카테고리 중 테마공원을 대상으로 공간 감성어 사전을 구축하였다. 이를 위해 자연어 처리 기법과 통계적 기법을 활용하였으며, 사전에 포함되는 공간 감성어는 감성의 극성에 대한 정보와 극성의 정도에 대한 확률점수를 포함하고 있다. 본 연구에서 구축한 공간 감성어 사전은 3개의 테이블(SSLex_SS, SSLex_single, SSLex_combi)로 구성되며, 총 219개의 어휘를 포함한다. 이를 바탕으로 트위터에서 테마공원에 대해 작성된 글을 대상으로 감성분석을 실시하였으며, 감성의 극성 분류에 대한 전체 정확도가 0.714로 산출됨에 따라 사전의 유효성을 확인할 수 있었다.

소셜미디어를 통해 본 재난안전 분야 어휘 사용 양상 분석 (A Study on the Analysis of Disaster Safety Lexicon Patterns in Social Media)

  • 김태영;이정은;오효정
    • 한국콘텐츠학회논문지
    • /
    • 제17권10호
    • /
    • pp.85-93
    • /
    • 2017
  • 재난안전 분야 어휘의 표준화는 성공적인 재난안전사고 예방 및 대응을 위해 가장 기본적인 과정으로서 중요하다. 재난안전 분야의 어휘에 대한 이해 부족은 커뮤니케이션 및 정보공유의 부재로 이어지며, 이는 재난사고 발생 시 적절한 대응을 위한 의사소통에 문제가 될 수 있다. 현재 재난안전 유관기관별로 다양한 재난안전정보가 생산 및 관리되고 있으며, 정보공유를 위해 각 기관에서는 개별적으로 용어사전을 개발하여 활용하고 있다. 따라서 이용자에 따른 재난안전 분야의 어휘 사용 양상의 차이를 실제적으로 파악하는 것은 표준화를 위해 필수적이다. 이에 본 연구는 재난안전 분야의 어휘 사용 양상을 소셜미디어를 중심으로 분석하여 그 차이를 규명하였다. 구체적으로는 재난안전 분야에서 일반 이용자가 사용하는 어휘와 기존 재난안전 유관기관에서 활용하고 있는 어휘자원의 차이점을 비교 분석하였다. 이후 분석 결과를 기반으로 재난안전 분야 표준화 방안을 제안함으로써 용어사전 구축 방향성을 수립하였다.

사전 정보와 차트 자료 구조를 이용한 효율적인 형태소 분석기 및 합성기(KoMAS) (An Efficient Korean Morpheme Analyzer and Synthesizer using Dictionary Information and Chart Data Structure)

  • 김정해;이상조
    • 전자공학회논문지B
    • /
    • 제31B권3호
    • /
    • pp.123-131
    • /
    • 1994
  • This paper describes on the analysis of morphemes and it's synthesis being constituted of Korean word phrases. To analyze morphemes, we propose the introduction of "morph" for morpheme features in lexicon and the usage of chart data structures. it controls over the generation of unnecessary morpheme, and extracts every possible morpheme unit in a word phrase which minimized lexicon investigation by using heuristic information. Moreover, to synthesize morphemes, it is composed of every possible analyzed morphemes in word phrases to take advantage of speech and union information which can be obtained for program. Therefore, the systhesis of analyzed morphemes were designed to aid a syntactic analysis next step of natural language processing. This system for analyzing and systhesizing morpheme was to generate a word phrase by unifying syntactic and semantic features of analyzed morphemes in lexicon, and then established by C language of the personal computer.

  • PDF

Classification of Behavioral Lexicon and Definition of Upper, Lower Body Structures in Animation Character

  • Hongsik Pak;Suhyeon Choi;Taegu Lee
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제15권3호
    • /
    • pp.103-117
    • /
    • 2023
  • This study focuses on the behavioural lexical classification for extracting animation character actions and the analysis of the character's upper and lower body movements. The behaviour and state of characters in the animation industry are crucial, and digital technology is enhancing the industry's value. However, research on animation motion application technology and behavioural lexical classification is still lacking. Therefore, this study aims to classify the predicates enabling animation motion, differentiate the upper and lower body movements of characters, and apply the behavioural lexicon's motion data. The necessity of this research lies in the potential contributions of advanced character motion technology to various industrial fields, and the use of the behavioural lexicon to elucidate and repurpose character motion. The research method applies a grammatical, behavioural, and semantic predicate classification and behavioural motion analysis based on the character's upper and lower body movements.