Design and Implementation of a Swearing Remover Program on Web board

웹 게시판 비속어 처리 프로그램의 설계 및 구현

  • 조아영 (울산대학교 정보통신대학원, (주)자룩스)
  • Published : 2001.10.01

Abstract

The existing swearing remover programs could not have blocked even slightly transformed swearings because of their input blocking properties. To overcome these defects, this paper implemented a supervising program which analysize and remove/replace swearings on web board. For this purpose this paper first classified the patterns of swearings on web board and then implemented a tokenizer which can analysize those patterns. The module tokenizing and removing/replacing swearings on each web board was implemented as a thread so that it could be parallely controlled. As a result of running this Program on some web boards , we found out it had detected almost of the swearings as 91.9% of recall but it could not meet our purpose sufficiently on morphological transformed swearings and swearings in context. So the studies will be continued about processing on morphological ambiguous words, ambiguous words in meaning and sweaings in context by extracting this program's manual mode. We expect this program could induce the users to proper usage of words and replace the manual works of web board managers in schools, public bodies, broadcasting stations etc.

기존의 웹 게시판 비속어 처리 프로그램들은 입력 차단형이라는 한계성 때문에 비속어의 모양이 조금만 변형이 되어도 비속어를 차단하지 못하는 문제점이 있었다. 이러한 한계성을 극복하기 위하여 본 논문에서는 인터넷의 열려있는 게시판에 대해 분석 및 삭제/치환하는 감시형 프로그램을 개발하였다. 이를 위해 먼저 웹 상의 비속어 패턴을 분류하였고 이를 바탕으로 이러한 패턴들을 분석할 수 있는 토크나이저를 개발하였다. 그리고 각 게시판에 대한 토크나이징 및 비속어 삭제/치환 모듈을 스레드로 구현하여 각각 병렬적으로 작업제어가 되도록 구현하였다. 이 프로그램을 웹 게시판의 데이터에 실험적으로 작동시킨 결과 대부분의 비속어를 검출하여 91.9%의 재현율을 보였으나 형태소적 변형 비속어와 문맥적 비속어의 검출에는 다소 미흡함을 나타내었다. 이 프로그램은 품사적, 의미적 중의어와 문맥적 비속어의 처리에 있어서 이 프로그램의 수동모드의 확장을 통해 앞으로 더욱 보완되어야 할 것이다. 이 프로그램은 게시판 사용자들을 적절한 단어사용에로 유도하며, 공공기관, 학교, 방송국 등의 게시판 관리자의 수작업을 대체해 줄 수 있을 것으로 기대된다.

Keywords