DOI QR코드

DOI QR Code

Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축

  • 강승식 (국민대학교 컴퓨터공학과) ;
  • 원혜진 (국민대학교 컴퓨터공학과 대학원) ;
  • 이민행 (연세대학교 독어독문학과)
  • Received : 2020.09.29
  • Accepted : 2020.12.08
  • Published : 2020.12.31

Abstract

In a mobile environment, communication takes place via SMS text messages. Vocabularies used in SMS texts can be expected to use vocabularies of different classes from those used in general Korean literary style sentence. For example, in the case of a typical literary style, the sentence is correctly initiated or terminated and the sentence is well constructed, while SMS text corpus often replaces the component with an omission and a brief representation. To analyze these vocabulary usage characteristics, the existing colloquial style corpus and the literary style corpus are used. The experiment compares and analyzes the vocabulary use characteristics of the colloquial corpus SMS text corpus and the Naver Sentiment Movie Corpus, and the written Korean written corpus. For the comparison and analysis of vocabulary for each corpus, the part of speech tag adjective (VA) was used as a standard, and a distinctive collexeme analysis method was used to measure collostructural strength. As a result, it was confirmed that adjectives related to emotional expression such as'good-','sorry-', and'joy-' were preferred in the SMS text corpus, while adjectives related to evaluation expressions were preferred in the Naver Sentiment Movie Corpus. The word embedding was used to automatically construct a sentiment lexicon based on the extracted adjectives with high collostructural strength, and a total of 343,603 sentiment representations were automatically built.

모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

Keywords

References

  1. H. Lee and S. Kang, "Spam message filtering by using Sen2Vec and feedforward neural network," 4th Annual Conference on Computational Science & Computational Intelligence(CSCI 2017), pp.123-123, 2017.
  2. 강승식, "스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법," 정보처리학회논문지, 제3권, 제7호, 271-276쪽, 2014년 https://doi.org/10.3745/KTSDE.2014.3.7.271
  3. 김흥규, 강범모, 홍정하, "21세기 세종계획 현대국어 기초말뭉치: 성과와 전망," 제19회 한글 및 한국어 정보처리 학술발표 논문집, 311-316쪽, 2007년
  4. 강승식, "21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환," 제21회 한글 및 한국어 정보처리학술발표 논문집, 262-265쪽, 2009년
  5. 홍진표, 차정원, "품사 태거와 빈도 정보를 활용한 세종 형태 분석 말뭉치 오류 수정," 정보과학회논문지: 소프트웨어 및 응용, 제40권, 제7호, 417-428쪽, 2013년
  6. K. Wang, C. Thrasher, E. Viegas, X. Li, and B. Hsu, "An overview of Microsoft web n-gram corpus and applications," Proceedings of NAACL HLT 2010: Demo. Session, pp. 45-48, 2010.
  7. T. Brants and A. Franz, "Web 1T 5-gram version 1," Linguistic Data Consortium, ISBN: 1-58563-397-6, Philadelphia, 2006.
  8. http://nlp.kookmin.ac.kr/kcc/, KCC150, KCCq28, and KCC940: Korean Contemporary Corpus, 2018.
  9. 홍택은, 김정인, 신주현, "인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류," 스마트미디어저널, 제5권, 제1호, 61-68쪽, 2016년 3월
  10. 김정인, 최준호, 김한일, 김판구, "나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법," 스마트미디어저널, 제5권, 제1호, 51-59쪽, 2020년 3월
  11. 임명진, 신주현, 김판구, "리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델," 스마트미디어저널, 제5권, 제1호, 69-77쪽, 2020년 6월
  12. 강승식, "SMS 영역에 대한 형태소 분석 사전의 구축," 언어정보, 5-21쪽, 2008년
  13. 박호민, 천민아, 남궁영, 최민석, 윤호, 김재균, 김재훈, "BPE를 활용한 한국어 감정사전 제작," 제31회 한글 및 한국어 정보처리 학술대회 논문집, 510-513쪽, 2019년
  14. Seung-Shik Kang and Minhaeng Lee, "Automatic Construction of Sentiment Lexicon by Analyzing SMS Bigdata," 2018 IEEE International Conference on BigData(IEEE BigData 2018), pp. 5331-5333, 2018.
  15. Y. Lu, M. Castellanos, U. Dayal, and C. Zhai, "Automatic construction of a context-aware sentiment lexicon: an optimization approach," Proceedings of WWW-11, pp. 347-356, 2011.
  16. S. Baccianella, A. Esuli, and F. Sebastiani, "SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining," Proceedings of LREC-10, pp. 2200-2204, 2010.
  17. M. Thelwall, K. Buckley, G. Paltoglou, D. Cai, A. Kappas, "Sentiment strength detection in short informal text," Journal of the American Society for Information Science and Technology, vol. 62, no. 2, pp. 2544-2558, 2010.
  18. M. Qu, X. Ren, J Han, "Automatic synonym discovery with knowledge bases," Proceedings of KDD, pp. 997-1005, 2017.
  19. 이민행, "빅데이터 시대의 언어연구 - 내 손안의 검색엔진," 21세기 북스, 2015
  20. S. Evert and A. Hardie, "A twenty-first century corpus workbench: updating a query architecture for the new millennium," Proceedings of the Corpus Linguistics, pp. 1-21, 2011.
  21. K. Church and P Hanks, "Word association norms, mutual information, and lexicography," Computational Linguistics, vol. 16, no. 1, pp. 22-29, 1990.
  22. S. Gries and A. Stefanowitsch, "Co-varying collexemes in the into-causative," Michel Achard & Suzanne Kemmer (eds.), Language, Culture, and Mind, pp. 225-236, 2004.
  23. 강승식, 장병탁, "음절 특성을 이용한 범용 한국어 형태소 분석기 및 맞춤법 검사기," 정보과학회 논문지(B), 제23권, 제5호, 530-539쪽, 1996년 5월
  24. T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Proceedings of NIPS, pp. 3111-3119, 2013.
  25. 박상민, 나철원, 최민성, 이다희, 온병원, "Bi-LST M 기반의 한국어 감성사전 구축 방안," 지능정보연구, 제24권, 제4호, 219-240쪽, 2018년 https://doi.org/10.13088/jiis.2018.24.4.219