A Probabilistic Method for Recognizing Unlabeled Text on Web Pages

;;;;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2003.10a
/
Pages.163-165
/
2003
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

A Probabilistic Method for Recognizing Unlabeled Text on Web Pages

웹페이지에서 레이블이 없는 텍스트 인식을 위한 확률 모델

정창후 (한국과학기술정보연구원) ;
이민호 (한국과학기술정보연구원) ;
주원균 (한국과학기술정보연구원) ;
맹성현 (한국정보통신대학원대학교)

Published : 2003.10.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

도메인 지식은 텍스트의 포맷과 의미 정보를 이용하여 웹에 존재하는 텍스트의 다양한 의미를 이해할 수 있도록 도와준다. 그러나 도메인 지식은 텍스트에 데이터의 의미를 표현하는 레이블이 존재하지 알을 경우에 텍스트 인식을 제대로 수행할 수 없기 때문에 무용지물이 되고 만다. 이러한 문제를 해결하기 위해 본 논문에서는 레이블이 존재하지 않는 텍스트의 의미를 효과적으로 추론할 수 있는 엔티티 인식 모델을 제안한다 엔티티 인식 모델은 베이지언 모델과 컨텍스트 정보를 결합한 방법으로서, 구조 분석을 수행한 HTML 문서의 텍스트 토큰에 대해서 어떤 엔티티에 속할 것인가를 결정하는 기능을 수행한다. 실험 결과 본 모델을 사용할 경우 기존에는 레이블이 없어서 인식되지 않았던 텍스트들을 효과적으로 인식하는 것을 확인할 수 있었다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

A Probabilistic Method for Recognizing Unlabeled Text on Web Pages

웹페이지에서 레이블이 없는 텍스트 인식을 위한 확률 모델

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)