• 제목/요약/키워드: 스팸 탐지

검색결과 51건 처리시간 0.031초

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

동시출현 단어분석 기반 스팸 문자 탐지 기법 (Coward Analysis based Spam SMS Detection Scheme)

  • 오하영
    • 정보보호학회논문지
    • /
    • 제26권3호
    • /
    • pp.693-700
    • /
    • 2016
  • 스팸 데이터 셋은 통상적으로 공개적으로 구하기 어렵고 기존 연구들은 대부분 스팸 이메일에 초점이 맞춰져 왔기 때문에 스팸 문자 메시지 자체 특성을 분석하는데 한계가 있었다. 스팸 이메일 특성 분석 활용 및 데이터 마이닝 기법 등의 활용을 통한 기존 연구들이 있었지만, 영향력이 높은 단일 단어를 활용한 스팸 문자 탐지 기법에 한정되어 있다는 한계점이 있다. 본 논문에서는 싱가폴 대학교에서 공개적으로 공개한 스팸 문자메시지를 다 각도에서 실험 및 분석하여 스팸 문자의 특성을 밝히고 동시출현 단어분석 기반의 스팸 문자 탐지 기법을 제안한다. 성능평가 결과, 제안하는 기법의 거짓 양성과 거짓 음성이 2%미만임을 보였다.

이메일 스팸트랩 기반 좀비PC/봇넷그룹 탐지 현황

  • 이태진;정현철;이재일
    • 정보보호학회지
    • /
    • 제22권8호
    • /
    • pp.7-14
    • /
    • 2012
  • 이메일 스팸메일의 대부분은 악성코드에 감염된 좀비PC에 의해 발송된다. '11년 시만텍 보고서에 따르면 한국발 좀비PC에 의한 스팸메일 발송이 세계 1위를 차지했으며, '12년에도 상위수준을 유지하고 있다. 본 논문에서는 이메일의 패턴 분석을 통해 좀비PC 및 같은 공격명령을 받은 봇넷그룹을 자동으로 탐지하는 시스템을 개발하고, 이를 통해 산출된 다양한 데이터에 대한 분석결과를 제시한다. 좀비PC 및 봇넷그룹 탐지결과는 스팸메일 차단기술로 활용 가능할 뿐 아니라, 악성코드 유포동향 파악 등 다양한 목적의 분석에 활용 가능하다.

소셜 네트워크 상에서의 재귀적 네트워크 구조 특성을 활용한 스팸탐지 기법 (Social Network Spam Detection using Recursive Structure Features)

  • 장보연;정시현;김종권
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1231-1235
    • /
    • 2017
  • 온라인 소셜 네트워크는 정보전파의 용이성 및 파급 영향력이 높지만 이를 악의적으로 활용하기 위한 스패머들이 다수 활동 중이다. 이러한 스패머를 식별하기 위한 스팸 탐지기법 연구가 다양한 분야에서 이루어지고 있지만 스패머들 또한 스팸 내용이나 스팸링크, 활동 주기 등의 특성을 변경하여 탐지를 피하고 있다. 하지만 다른 특성들과 달리 온라인 소셜 네트워크의 고유 네트워크 특성인 링크 특성은 쉽게 변화시키는 어렵다. 따라서 본 논문에서는 이러한 네트워크의 구조적인 특성을 활용하여 스패머를 일반사용자와 구분하는 방법을 제시한다. 즉 일반사용자 노드가 주변 노드와 비슷한 네트워크 특성을 갖는 점에 주목하여 인접 노드를 활용한 재귀적인 구조적 특성을 생성하여 활용함으로써 스패머의 식별확률을 높이고 있다. 이를 검증하기 위한 실험은 트위터의 실제 데이터셋을 Weka 프로그램에 탑재된 랜덤포레스트 알고리즘을 활용하여 측정하였으며, 재귀적인 특성을 활용하지 않는 방법과 기존 제안 알고리즘에 비해 탐지율이 0.82에서 0.90으로 향상됨으로써 제안하는 방법이 스패머를 탐지하는데 효과적임을 제시하고 있다.

트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법 (A Method for Twitter Spam Detection Using N-Gram Dictionary Under Limited Labeling)

  • 최혁준;박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권9호
    • /
    • pp.445-456
    • /
    • 2017
  • 본 논문에서는 트레이닝 데이터가 제한된 환경에서 n-gram 사전을 이용하여 불건전 정보를 포함하는 스팸 트윗을 탐지하는 방법을 제안한다. 불건전 정보를 포함하는 스팸 트윗은 유사한 단어와 문장을 사용하는 경향이 있다. 이러한 특성을 이용하여 스팸 트윗과 정상 트윗에 대한 n-gram 사전을 구축하고 나이브 베이스 분류기를 적용하여 효과적으로 스팸 트윗을 탐지할 수 있음을 보인다. 반면에, 실시간으로 대용량의 데이터가 유입되는 트위터의 특성은 초기 트레이닝 집합 구성에 매우 큰 비용을 요구 한다. 따라서, 초기 트레이닝 집합이 매우 작거나 존재하지 않는 환경에서 적용할 수 있는 스팸 트윗 탐지 방법이 필요하다. 이를 위해 트위터의 리트윗 기능을 활용하여 의사 라벨을 생성하고 초기 트레이닝 집합의 구성과 n-gram 사전 업데이트에 활용하는 방법을 제안한다. 2016년 12월 1일부터 2016년 12월 7일까지 수집된 한국어 트윗 130만 건을 사용한 다양한 실험 결과는 비교 방법들보다 제안하는 방법의 성능이 우수함을 입증한다.

국내 쇼핑 사이트 적용을 위한 리뷰 스팸 탐지 방법의 성능 평가 (Performance Evaluation of Review Spam Detection for a Domestic Shopping Site Application)

  • 박지현;김종권
    • 정보과학회 논문지
    • /
    • 제44권4호
    • /
    • pp.339-343
    • /
    • 2017
  • 상품 또는 상점에 대해 거짓된 후기를 남기는 악의적인 사용자가 증가함에 따라 사용자에게 신뢰성 있는 정보를 제공하는 데 어려움을 겪고 있다. 거짓된 후기는 리뷰 스팸이라고 불리는데, 제품을 홍보하거나, 평판을 훼손하기 위해 작성된다. 이는 제품의 판매량에 직접 영향을 미치기 때문에 이러한 리뷰 스팸을 탐지할 필요가 있다. 국내 쇼핑 사이트에서도 리뷰 스팸은 흔히 접할 수 있으나, 기존 연구에서 제안된 방법은 모두 외국 사이트에서만 평가되었다. 따라서, 본 논문에서는 리뷰 스팸을 탐지하는 기존 방법의 소개와 더불어 네이버 쇼핑의 리뷰 특성을 파악하고, 리뷰 스팸을 탐지하는 여러 가지 방법을 네이버 쇼핑에 적용하여 성능을 평가하였다.

VoIP 스팸 콜 탐지를 위한 음성신호의 DEVS 모델링 및 시뮬레이션 (DEVS Simulation of Spam Voice Signal Detection in VoIP Service)

  • 김지연;김형종;조영덕;김환국;원유재;김명주
    • 한국시뮬레이션학회논문지
    • /
    • 제16권3호
    • /
    • pp.75-87
    • /
    • 2007
  • VoIP 서비스 품질이 개선되고 많은 문제점들이 극복되면서 이에 대한 사용자들의 관심이 높아지고 있다. VoIP는 인스턴트 메시징 서비스 등 사용자들의 편익을 위한 서비스를 제공하고 있지만 비용 및 보안 문제는 사용자들의 이러한 서비스 사용을 주저하게 만들고 있다. 본 논문은 이와 같은 문제 중 하나인 VoIP 스팸 문제를 다루고자 한다. 스팸 콜에서의 음성 메시지 신호 패턴을 고려하여 정상 콜과 Noise가 포함된 정상 콜, 스팸 콜 이 세 가지 음성 모델을 설계하고, 논문에서 제시하는 음성 신호 정보량 기반의 스팸 탐지 알고리즘에 적용해 보았다. 각 모델의 모델링 및 시뮬레이션은 DEVS-$Java^{TM}$를 이용하였다. 본 연구는 스팸 콜 음성 신호를 탐지하기 위한 방법을 제시하고 이를 모델링 및 시뮬레이션 방법론을 통해 검증하는 것에 기여점을 둘 수 있다.

  • PDF

음성스팸 실시간 차단시스템에 관한 연구 (A Study on Real-time Bloking System for the Voice Marketing Call)

  • 박해룡;박윤식;서혜정;봉기환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.203-206
    • /
    • 2017
  • 최근 휴대전화 문자스팸 차단 강화로 인한 풍선효과로 휴대전화 음성스팸이 지속적으로 증가하고 있고, 2015년 3월부터는 음성스팸 건수가 문자스팸 건수를 역전해서 급속도로 증가하고 있어 효율적으로 음성스팸을 차단할 수 있는 시스템 구축의 필요성이 대두되고 있다. 이에, 음성스팸 신고번호와 음성스팸 가상 트랩(실제 존재하지 않는 가상의 휴대전화번호를 적용)을 통해 탐지된 내용을 기반으로 음성스팸 전화번호 차단리스트를 생성하고 이를 이통사에게 제공하여 일정기간 동안 음성호를 차단하는 음성스팸 실시간 차단시스템을 설계하고자 한다.

메일 컨텐츠 탐지를 위한 침입 탐지 시스템의 확장에 관한 설계 및 구현 (Design and Implementation of the Extended Intrusion Detection System for Mail Contents Probing)

  • 한영주;김희승;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1889-1892
    • /
    • 2003
  • 인터넷이 발전함에 따라 기업의 업무, 커뮤니케이션 등이 온라인으로 전환되고 있으며, 정보전달의 통로로써 전자 메일의 사용이 나날이 늘고 있다. 이에 따라 전자 메일을 통한 바이러스, 스팸 광고 등 메일의 컨텐츠를 이용한 공격에 의한 피해가 심각한 수준에 이르고 있다. 현재 방지 대책으로는 백신이나 스팸 메일 차단기 등을 통해 방지 기능을 제공하고는 있으나 이는 사용자의 의지에 의존적이며, 개개 시스템에 한정되는 한계가 있다. 따라서 사용자의 의지와 무관하게 네트워크 차원에서 내부 네트워크를 보호하기 위한 방지 대책이 필요하며 이에 본 논문에서는 기존의 침입 탐지 시스템을 확장하여 메일 컨텐츠를 탐지할 수 있는 확장된 침입탐지 시스템을 제안한다.

  • PDF

특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법 (A Spam Filtering Method using Frequency Distribution of Special Letter and Frequency Ratio of Keyword)

  • 이성진;백종법;한정석;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.280-283
    • /
    • 2011
  • 인터넷 환경에서 무차별적으로 유통되는 스팸 문서로 인한 사회적 문제가 커져 가고 있는 가운데 스팸문서를 차단하기 위한 활발한 연구들이 이루어지고 있다. 이 가운데 대표적인 연구는 자질어를 이용한 기계학습 기반의 스팸 차단 기술이다. 그러나 이 방법은 미리 선택된 자질어로만 구성된 분류 모델을 사용하기 때문에 Term Spamming(단어 조작에 의한 스팸 차단 행위)에 취약하며, 스팸 차단의 성능과 학습 소요 시간이 선택된 자질어의 품질과 수에 민감하게 영향을 받는다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 스팸 문서에서 등장하는 특수 문자의 빈도와 반복되는 단어의 특징을 이용한 스팸 탐지 방법을 제안한다. 제안 방법은 각 문서에서 등장하는 특수 문자의 비율과 최다 출현 단어의 반복 패턴을 정의하고 기계학습 알고리즘을 적용하여 스팸 분류 모델을 생성한다. 제안 방법의 성능 평가를 위해 E-mail 데이터와 블로그의 Post 데이터를 사용하여 자질어 기반의 스팸 차단 방법과 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방법이 분류 정확도와 학습 소요 시간에 있어 우수한 성능을 보이는 것을 확인하였다.