DOI QR코드

DOI QR Code

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법

  • Ka-Hyeon Kim (Dept. of Software Security, Graduate School of Computer & Information Tech., Korea University) ;
  • Heonchang Yu (Dept. of Computer Science and Engineering, Korea University)
  • 김가현 (고려대학교 컴퓨터정보통신대학원 ) ;
  • 유헌창 (고려대학교 정보대학 컴퓨터학과 )
  • Published : 2023.11.02

Abstract

대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

Keywords