• 제목/요약/키워드: junk words base

검색결과 1건 처리시간 0.016초

퍼지관계곱을 이용한 내용기반 정크메일 분류 모델 (A Junk Mail Checking Model using Fuzzy Relational Products)

  • 박정선;김창민;김용기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.726-735
    • /
    • 2002
  • 인터넷의 발전을 기반으로 전자메일 서비스는 기존 우편 기능을 대체하여 현재의 대표적인 정보 전달 수단으로 자리잡고 있다. 전자메일 사용자의 확산에 따라 많은 기업들은 전자메일을 통한 개인별 카탈로그 보급 식의 광고에 투자를 하게 되었는데, 이는 개인별 취향을 고려한 광고가 가능하다는 잇점을 가진다. 그러나 전자메일 사용자들은 인터넷상에 개인 전자메일 주소가 노출됨에 의해서 많은 정크메일(junk mail)을 수신하게 되었는데, 정크메일이란 기업의 광고 선전물과 같이 수신을 원하지 않는 전자메일을 의미한다. 정크메일의 증가에 따라 정크메일을 분류하는 수단이 필요하게 되었는데, 현재까지는 사용자가 입력한 송신자의 전자메일 주소 또는 도메인 주소를 등록하여 차단하거나 제목에 특정 단어를 포함한 메일을 완전히 삭제하여 버리는 기술수준에 머무르고 있다. 본 논문에서는 퍼지관계곱을 기반으로 메일의 내용에 의미적으로 접근하여 정크메일을 추출하는 정크메일 분류 모델을 제안한다. 이는 퍼지관계곱 연산을 이용하여 미리 정의한 정크용어들과 사용자에게 수신되는 전자메일 내의 용어들 간 의미적 포함관계를 분석하고 그를 통해 전자메일의 정크도(degree of junk)를 추출한다. 각 전자메일별로 추출된 정크도는 사용자가 부여하는 정크 기준치(SVJ, Standard Value of Junk)를 기준으로 정크메일과 비정크메일로 분류한다. 제안된 기법은 사용자가 특정 개수의 동일한 전자메일에 대해 느끼는 정크도를 기준으로 분류한 정크메일 수를 비교하여 그 효용성을 증명하였다.