Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2006.10b
- /
- Pages.7-10
- /
- 2006
- /
- 1598-5164(pISSN)
Harmful Web-document Filtering using Harmful word Co-occurrence
유해어의 공기정보를 활용한 유해 웹문서 필터링
- An, Hyung-Keun (Dept. of Computer Engineering, Chonbuk National University) ;
- Lee, Won-Hee (Dept. of Computer Engineering, Chonbuk National University) ;
- An, Dong-Un (Dept. of Computer Engineering, Chonbuk National University) ;
- Chung, Sung-Jong (Dept. of Computer Engineering, Chonbuk National University)
- Published : 2006.10.20
Abstract
웹 환경이 일반화되고 웹을 통해 획득할 수 있는 정보가 다양하고 풍부하다. 이 다양하고 풍부한 정보는 유익한 정보 뿐만 아니라 청소년들을 비롯한 사회적으로 보호를 받아야 할 웹 이용자들의 정신건강을 해치는 정보들도 다수 포함되고 있어 사회적 문제가 되고 있다. 본 연구에서는 웹 문서를 필터링하는 수단으로 공기정보를 포함하고 있는 유해어 사전을 활용한다. 유해어 사전 구축은 단순히 유해어 리스트만으로 사전을 구축하지 않고, 유해어 주위의 공기 단어의 정보를 포함시킴으로써 유해어의 중의성에 의한 오분류를 해소하고자 하였다. 즉, 유해어 후보가 1개 이상의 의미를 가지며 각 의미가 유해 정도가 다를 때, 유해어 후보의 등급을 결정하기 위하여 해당 유해어와 같은 문장 혹은 같은 문서에 출현하는 다른 단어 정보를 활용한다. 이렇게 함으로써 문서의 유해 등급을 결정하게 된다.
Keywords