DOI QR코드

DOI QR Code

Preprocessing technique for natural language processing considering the form of characters used in malicious comments

악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법

  • Kim, Hae-Soo (School of Computer Engineering & Applied Mathematics, Hankyong National University) ;
  • Kim, Mi-hui (School of Computer Engineering & Applied Mathematics, Computer System Institute Hankyong National University)
  • 김해수 (한경대학교 컴퓨터응용수학부) ;
  • 김미희 (한경대학교 컴퓨터응용수학부, 컴퓨터시스템연구소)
  • Published : 2022.05.17

Abstract

최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

Keywords

Acknowledgement

이 논문은 2018년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2018R1A2B6009620)