DOI QR코드

DOI QR Code

라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구

A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages

  • 이재아 (서울과학기술대학교 나노IT디자인융합대학원) ;
  • 박구만 (서울과학기술대학교 나노IT디자인융합대학원)
  • Jaeah, Lee (Graduate School of Nano IT Design Fusion, Seoul National University of Science and Technology) ;
  • Gooman, Park (Graduate School of Nano IT Design Fusion, Seoul National University of Science and Technology)
  • 투고 : 2022.08.31
  • 심사 : 2022.09.22
  • 발행 : 2022.11.30

초록

본 연구에서는 직접 수집한 라디오 청취자 문자 사연을 활용하여 한국어 문장 감정 분석을 수행하기 위한 한국어 데이터셋을 구성하였으며 그 특성을 분석하였다. 딥러닝 언어모델 연구가 활발해지면서 한국어 문장 감정 분석에 관한 연구도 다양하게 진행되고 있다. 그러나 한국어의 언어학적 특성으로 인해 감정 분석은 높은 정확도를 기대하기 어렵다. 또한, 긍정/부정으로만 분류되도록 하는 이진 감성 분석은 많은 연구가 이루어졌으나, 3개 이상의 감정으로 분류되는 다중 감정 분석은 더 많은 연구가 필요하다. 이에 대해 딥러닝 기반의 한국어에 대한 다중 감정 분석 모델의 정확도를 높이기 위한 한국어 데이터셋 구성에 관한 고찰과 분석이 필요하다. 본 논문에서는 설문조사와 실험을 통해 감정 분석이 실행되는 과정에서 한국어 감정 분석이 어떤 이유 때문에 어려운지 분석하고 정확도를 향상시킬 수 있는 데이터셋 조성에 대한 방안을 제시하였으며 한국어 문장 감정 분석에 근거로 활용할 수 있게 하였다.

This study aims to analyze the Korean dataset by performing Korean sentence Emotion Analysis in the radio listeners' text messages collected personally. Currently, in Korea, research on the Emotion Analysis of Korean sentences is variously continuing. However, it is difficult to expect high accuracy of Emotion Analysis due to the linguistic characteristics of Korean. In addition, a lot of research has been done on Binary Sentiment Analysis that allows positive/negative classification only, but Multi-class Emotion Analysis that is classified into three or more emotions requires more research. In this regard, it is necessary to consider and analyze the Korean dataset to increase the accuracy of Multi-class Emotion Analysis for Korean. In this paper, we analyzed why Korean Emotion Analysis is difficult in the process of conducting Emotion Analysis through surveys and experiments, proposed a method for creating a dataset that can improve accuracy and can be used as a basis for Emotion Analysis of Korean sentences.

키워드

참고문헌

  1. Kim.Jihee, Oh.Jinhee, Kim.Myeungjin, Lim,Yankyu, "A Study on the Method of Creating Realistic Content in Audience-participating Performances using Artificial Intelligence Sentiment Analysis Technology", The Korean Society of Broadcast and Media Engineers, Vol.26, No.5, pp.533-541, 2021. doi: http://doi.org/10.5909/JBE.2021.26.5.533
  2. Sudharsan Ravichandiran, Getting Started with Google BERT, (H. Jeon, S. Jung, H. Kim, Trans.), Hanbit Media, pp.22-74, 341-344, 2021
  3. Aurelien Geron, Hands-on Machin Learning with Scikit-Learn,Keras, and TensorFlow:Concepts,Tools,and Techniques to Build Intelligent Systems, (H. Park,Trans.), O'reily Media, , pp.598-670, 2020.
  4. Kwang-Hyeon Pak, Seung-Hoon Na, Jong-Hoon Shin, Young-Kil Kim, "BERT for Korean Natural Language Processing: Named Entity Tagging, Sentiment Analysis, Dependency Parsing and Semantic Role Labeling", Korea Computer Congress 2019, Korea, pp.584-586, 2019
  5. Yeonji Jang, Jiseon Choi, Hansaem Kim, "KcBert-based Movie review Corpus Emotion Analysis Using Emotion Vocabulary Dictionary" Journal of KIISE, Vol.49, No.8, pp.608-616, 2022.8. doi: https://doi.org/10.5626/JOK.2022.49.8.608
  6. Sangah Lee, Hansol Jang, Yunmee Baik, Suzi Park, Hyopil Shin,"A Small-Scale Korean-Specific BERT Language Model", Journal of KIISE, Vol. 47, No. 7, pp. 682-692, 2020. 7. doi: https://doi.org/10.5626/JOK.2020.47.7.682