Harmful Web-document Filtering using Harmful word Co-occurrence

유해어의 공기정보를 활용한 유해 웹문서 필터링

  • An, Hyung-Keun (Dept. of Computer Engineering, Chonbuk National University) ;
  • Lee, Won-Hee (Dept. of Computer Engineering, Chonbuk National University) ;
  • An, Dong-Un (Dept. of Computer Engineering, Chonbuk National University) ;
  • Chung, Sung-Jong (Dept. of Computer Engineering, Chonbuk National University)
  • 안형근 (전북대학교 대학원 컴퓨터공학과) ;
  • 이원휘 (전북대학교 대학원 컴퓨터공학과) ;
  • 안동언 (전북대학교 대학원 컴퓨터공학과) ;
  • 정성종 (전북대학교 대학원 컴퓨터공학과)
  • Published : 2006.10.20

Abstract

웹 환경이 일반화되고 웹을 통해 획득할 수 있는 정보가 다양하고 풍부하다. 이 다양하고 풍부한 정보는 유익한 정보 뿐만 아니라 청소년들을 비롯한 사회적으로 보호를 받아야 할 웹 이용자들의 정신건강을 해치는 정보들도 다수 포함되고 있어 사회적 문제가 되고 있다. 본 연구에서는 웹 문서를 필터링하는 수단으로 공기정보를 포함하고 있는 유해어 사전을 활용한다. 유해어 사전 구축은 단순히 유해어 리스트만으로 사전을 구축하지 않고, 유해어 주위의 공기 단어의 정보를 포함시킴으로써 유해어의 중의성에 의한 오분류를 해소하고자 하였다. 즉, 유해어 후보가 1개 이상의 의미를 가지며 각 의미가 유해 정도가 다를 때, 유해어 후보의 등급을 결정하기 위하여 해당 유해어와 같은 문장 혹은 같은 문서에 출현하는 다른 단어 정보를 활용한다. 이렇게 함으로써 문서의 유해 등급을 결정하게 된다.

Keywords