Abstract
The ontology has been used widely in recent years with its aim to accumulate knowledge that machine can comprehend. We believe that machine can manage and analyze information on its own using the ontology. In this paper, we propose an algorithm that allows us to extract properties of ontology instances from structured information already existing in web documents. In particular, by stratification of the domain knowledge that is composed of property information, we were able to make the algorithm better and improve the quality of extraction results. In our experiments with 20 thousands targeted documents, we were able to extract property information with 83% confidence.
최근에 여러 분야에서 구축되고 있는 온톨로지는 기계가 이해할 수 있는 지식을 축적하는 것을 목표로 하고 있다. 기계가 온톨로지를 이용하여 정보의 관리 및 해석을 스스로 하는 것이 가능할 것으로 본다. 본 논문에서는 온톨로지의 인스턴스를 구성하는 속성을 기존 웹 문서의 구조정보로부터 추출하는 알고리즘을 제안하였다. 특히, 속성 정보로 구성하는 도메인 지식을 계층화함으로써 속성 추출 알고리즘을 개선하고, 추출 결과의 품질을 향상시킨다. 2만 문서를 대상으로 제안된 알고리즘을 적용한 결과 약 83%의 신뢰도의 속성 정보를 추출할 수 있었다.