DOI QR코드

DOI QR Code

Preprocessing Technique for Malicious Comments Detection Considering the Form of Comments Used in the Online Community

온라인 커뮤니티에서 사용되는 댓글의 형태를 고려한 악플 탐지를 위한 전처리 기법

  • 김해수 (한경대학교 컴퓨터응용수학부 ) ;
  • 김미희 (한경대학교 컴퓨터응용수학부 컴퓨터시스템연구소)
  • Received : 2022.08.22
  • Accepted : 2022.11.09
  • Published : 2023.03.31

Abstract

With the spread of the Internet, anonymous communities emerged along with the activation of communities for communication between people, and many users are doing harm to others, such as posting aggressive posts and leaving comments using anonymity. In the past, administrators directly checked posts and comments, then deleted and blocked them, but as the number of community users increased, they reached a level that managers could not continue to monitor. Initially, word filtering techniques were used to prevent malicious writing from being posted in a form that could not post or comment if a specific word was included, but they avoided filtering in a bypassed form, such as using similar words. As a way to solve this problem, deep learning was used to monitor posts posted by users in real-time, but recently, the community uses words that can only be understood by the community or from a human perspective, not from a general Korean word. There are various types and forms of characters, making it difficult to learn everything in the artificial intelligence model. Therefore, in this paper, we proposes a preprocessing technique in which each character of a sentence is imaged using a CNN model that learns the consonants, vowel and spacing images of Korean word and converts characters that can only be understood from a human perspective into characters predicted by the CNN model. As a result of the experiment, it was confirmed that the performance of the LSTM, BiLSTM and CNN-BiLSTM models increased by 3.2%, 3.3%, and 4.88%, respectively, through the proposed preprocessing technique.

인터넷이 보급되면서 사람들 간의 소통을 위한 커뮤니티가 활성화됨과 함께 익명 커뮤니티가 나타났고 익명성을 이용한 공격적인 게시글, 댓글을 남기는 등 타인에게 피해를 주는 행위를 하는 이용자가 많아지고 있다. 과거에는 관리자가 직접 글과 댓글을 확인하며 삭제 및 차단했지만, 커뮤니티 이용자가 늘어나면서 관리자가 계속 감시할 수 없는 수준에 이르렀다. 초기에는 특정 단어가 포함되면 해당 글을 게시하거나 댓글을 달 수 없는 형태로 악의적인 글이 게시되는 것을 막는 단어 필터링 기법을 사용하였으나 유사한 단어를 사용하는 등 우회하는 형식으로 필터링을 피해 갔다. 이를 해결하는 방법으로 딥러닝을 이용하여 실시간으로 이용자들이 게시하는 글들을 감시하였으나 최근 커뮤니티에서는 해당 커뮤니티에서만 이해할 수 있는 단어를 사용하거나 일반적인 한글이 아닌 인간의 시야에서만 이해할 수 있는 문자를 사용하고 있다. 이들이 사용하는 문자의 종류나 형태가 다양하여 인공지능 모델에 모든 것을 학습시키기에 어려움이 있다. 이에 본 논문에서는 한글의 자음과 모음 띄어쓰기 이미지를 학습시킨 CNN 모델을 이용해서 문장의 각 문자를 이미지화해 인간의 시야에서만 이해할 수 있는 문자를 모델이 예측한 문자로 변환하는 전처리 기법을 제안한다. 실험 결과, 제안한 전처리 기법을 통해 LSTM, BiLSTM, CNN-BiLSTM 모델에서의 성능이 각각 3.2%, 3.3%, 4.88% 증가함을 확인했다.

Keywords

Acknowledgement

이 논문은 2018년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2018R1A2B6009620).

References

  1. K. Suh, "The effects of the characteristics of internet communities and individuals on user loyalty," Asia Pacific Journal of Information Systems, Vol.13, No.2, pp.1-22, 2003.
  2. J. Shin, K. Kim, and J. Park, "The effect of social anonymity on community quality: Mediated by self expression, self control, and community ties," The Journal of Society for e-Business Studies, Vol.16, No.4, pp.257-281, 2011. https://doi.org/10.7838/jsebs.2011.16.4.257
  3. Gallup Report, [Inmternet], https://www.gallup.co.kr/gallupdb/reportContent.asp?seqNo=1309
  4. O. Kang, "A study on the expression of deconstructionism for Yaminjeongeum and Geupsikche," Institute of Humanities, Chosun university - the study of humanities, Vol.56, pp.325-349, 2018.
  5. H. Kim and M. Kim, "Preprocessing technique for natural language processing considering the form of characters used in malicious comment," Proceedings of the Annual Spring Conference of Korea Information Processing Society Conference (KIPS) 2022, Vol.29, pp.543-545, 2022.
  6. K. O'Shea and R. Nash, "An introduction to convolutional neural networks," arXiv preprint arXiv:1511.08458, 2015.
  7. J. Kim and J. Kook, "Design and implementation of a LSTM-based YouTube malicious comment detection system," Smart Media Jounal, Vol.11, No.2, pp.18-24, 2022. https://doi.org/10.30693/SMJ.2022.11.2.18
  8. M. I. Jordan, "Serial order: A parallel distributed processing approach," Tech. rep. ICS 8604. San Diego, California: Institute for Cognitive Science, University of California, May, 1986.
  9. S. Hochreiter and J. Schmidhuber, "LONG SHORT-TERM MEMORY," Neural Computation, Vol.9, No.8, pp.1735-1780, 1997. https://doi.org/10.1162/neco.1997.9.8.1735
  10. M. Jeong, J. Lee, and H. Oh, "Ensemble machine learning model based YouTube spam comment detection," Journal of the Korea Institute of Information and Communication Engineering, Vol.24, No.5, pp.576-583, 2020.
  11. The Unicode Standard, Version 14.0-Hangul Syllables, [Internet]. https://www.unicode.org/charts/PDF/UAC00.pdf
  12. H. Kwon, J. Kim, and H. Kwak "Researches to divided Hangul spelling for program based on Uni-Code," Proceedings of the 31th KISS Fall Comference, Vol.31, No.2, pp.781-783, 2004.
  13. Pillow, [Internet], https://pillow.readthedocs.io/en/stable/
  14. Curse Detection Dataset, [Internet]. https://github.com/2runo/Curse-detection-data
  15. Korean HateSpeech Dataset, [internet]. https://github.com/kocohub/korean-hate-speech