Study of Feature Extraction Algorithm for Harmful word Filtering

유해어 필터링을 위한 자질어 추출 알고리즘에 관한 연구

  • Jeong Jung-Hoon (Dept. of Computer Engineering, Chonbuk National University) ;
  • Lee Won-Hee (Dept. of Computer Engineering, Chonbuk National University) ;
  • Lee Shin-Won (Dept. of Computer Engineering, Chonbuk National University) ;
  • An Don-Gun (Dept. of Computer Engineering, Chonbuk National University) ;
  • Chung Sung-Jong (Dept. of Computer Engineering, Chonbuk National University)
  • 정정훈 (전북대학교 대학원 컴퓨터공학과) ;
  • 이원휘 (전북대학교 대학원 컴퓨터공학과) ;
  • 이신원 (전북대학교 대학원 컴퓨터공학과) ;
  • 안동언 (전북대학교 대학원 컴퓨터공학과) ;
  • 정성종 (전북대학교 대학원 컴퓨터공학과)
  • Published : 2006.06.01

Abstract

유해 정보란 정보의 홍수 속에서 무차별적으로 제공되는 음란, 폭력 등의 내용을 담고 있는 정보를 말한다. 이러한 유해 정보들로부터 청소년 등 사회적으로 보호를 받아야 할 인터넷 이용자들을 보호하기 위한 장치가 필요하다. 현재 다양한 방법이 제안되고 연구되고 있다. 본 연구에서는 유해 문서의 필터링을 기법 중 키워드 필터링에서 사용되는 유해어 사전을 위한 자질어 추출 알고리즘에 대해서 비교/연구하였다. 키워드 필터링에서 자질어는 필터링의 성능에 많은 영향을 미친다. 따라서 필터링의 성능을 높이기 위한 자질어 추출 알고리즘 선택은 매우 중요하다. 이에 본 논문에서는 다양한 알고리즘을 비교 분석하여 정확하고 효율적인 자질어 추출 알고리즘 조합을 찾고자 하였다. 그 결과 CHI/TF-IDF 조합이 높은 성능을 보였으며 92%의 정확도를 얻을 수 있었다.

Keywords