DOI QR코드

DOI QR Code

The system of collecting and judgement of harmful site in SNS

SNS기반 유해사이트 판단 및 수집 시스템

  • Published : 2017.04.27

Abstract

소셜 미디어를 이용하는 사용자의 수가 증가함에 따라 소셜 미디어에서 공유되고 있는 유해 정보(불법, 음란)의 심각성의 대두되고 있다. 기존의 단어 DB기반의 유해 사이트 판별 방법은 단어 DB의 갱신 문제점과 유해 정보와 낮은 연관성을 가진 단어가 DB에 저장되는 문제점을 가지고 있었다. 또한 링크 주소를 짧게 해주는 Short URL 서비스를 고려하지 않아 잘못된 웹 문서를 판별 대상으로 삼을 수 있는 문제점이 있다. 본 논문에서 제안하는 유해 사이트 판별 방법은 기 구축한 유해 단어 DB에서 유해 단어를 추출하고, 추출된 단어를 포함하는 소셜 미디어상의 유해 게시물을 조회한다. 유해 단어 DB를 구축하는 방법으로, 유해 게시물 조회시 내용에 포함되는 해시태그를 저장하는 방법을 사용하여 게시물 수집과 동시에 유해 단어 DB를 갱신시킨다. 또한 유해 게시물 내용에 있는 URL 링크의 웹 문서를 문자열로 치환하여, 해당 문자열내의 유해 단어 DB에 있는 유해 단어의 등장 빈도 수를 계산하고 이를 기준치와 비교하여 유해도를 판단한다. Short URL을 사용한 URL 링크인 경우 HTTP 응답 메시지의 헤더 부에 존재하는 실제 목적지 URL 주소를 가져와 유해도 검사를 실시한다.

Keywords