Probabilistic based Web Contents Mining

확률 기반 웹 콘텐츠 마이닝

  • Published : 2006.11.10

Abstract

In Web contents mining, it is important to recognize the unlabeled entities and to integrate the sub-linked information and the extracted results. This paper presents the probabilistic based method which can recognize the unlabeled entity by using the Baysien model. Moreover, we propose the method that can use the information of the sub-linked web pages and integrate the extracted results. In the experimental results, we can see that the probabilistic based entity and information integration show the most significant precision.

웹문서에 대한 콘텐츠 마이닝에서 레이블이 없는 엔티티 인식과 하위정보 및 추출결과의 정보통합은 중요하다. 본 논문에서는 레이블이 없는 엔티티를 인식하기 위해 베이지언 모델에 기반한 확률 기반 인식 방법을 제안한다. 또한 웹문서에 존재하는 하위링크정보를 이용하고, 추출한 중복된 결과를 통합할 수 있는 방안을 제시한다. 실험결과, 확률기반 엔티티인식과 정보통합을 수행한 방법이 가장 우수한 성능을 보임을 알 수 있다.

Keywords