Automatic Topic Identification Based on the Ontology for Web Documents

온톨로지 기반의 웹 문서 자동 주제 식별

  • 최인대 (도립거창전문대학, 컴퓨터정보시스템과) ;
  • 남인길 (대구대학교, 정보통신대학 컴퓨터 IT공학부) ;
  • 부기동 (경일대학교, 컴퓨터공학부)
  • Published : 2004.09.01

Abstract

The goal of this research is to develop a method of identifying a topic of a given text by looking at relationship of keywords defined in an ontology hierarchy. The keywords which are extracted from important sentences of the given text are mapped onto their correspond concepts which exist in the hierarchy. After all the words are mapped, the correspond concepts will be generalized into one single concept. The single concept will most likely be the topic of text. Our research have an approach that promotes both satisfaction in term of robustness and accuracy using ontologies and word frequency. So, this attempts are done in what they call as a hybrid approach. We try to take the challenge by using knowledge-statistical base approach. Experimental results show that proposed method outperforms the existing method using knowledge-base only.

본 연구의 목적은 온톨로지 계층구조에 정의된 키워드들 간의 연관성을 참조함으로써 주어진 텍스트의 주제를 식별할 수 있는 방법을 개발하는 것이다. 텍스트의 중요한 문장들로부터 추출된 키워드들은 계층구조에 존재하는 개념들에 사상된다. 모든 단어가 사상되면, 대응되는 개념들은 한 개의 단일 개념으로 일반화 되며, 그 단일 개념이 텍스트의 주제가 된다. 본 연구는 온톨로지와 단어 빈도를 사용해서 신뢰성과 정확도를 향상시키기 위한 지식 베이스와 통계적 접근을 병행한 하이브리드 방식의 접근 방식으로서 성능을 향상시켰다. 실험 결과 제안한 방법이 기존의 지식 베이스만을 사용한 방법보다 성능이 우수함을 보였다.

Keywords