A Knowledge-based Wrapper Learning Agent for Semi-Structured Information Sources

준구조화된 정보소스에 대한 지식기반의 Wrapper 학습 에이전트

  • 서희경 (삼성종합기술원 HCI Lab. 연구원) ;
  • 양재영 (한양대학교 컴퓨터공학과) ;
  • 최중민 (한양대학교 컴퓨터공학과)
  • Published : 2002.02.01

Abstract

Information extraction(IE) is a process of recognizing and fetching particular information fragments from a document. In previous work, most IE systems generate the extraction rules called the wrappers manually, and although this manual wrapper generation may achieve more correct extraction, it reveals some problems in flexibility, extensibility, and efficiency. Some other researches that employ automatic ways of generating wrappers are also experiencing difficulties in acquiring and representing useful domain knowledge and in coping with the structural heterogeneity among different information sources, and as a result, the real-world information sources with complex document structures could not be correctly analyzed. In order to resolve these problems, this paper presents an agent-based information extraction system named XTROS that exploits the domain knowledge to learn from documents in a semi-structured information source. This system generates a wrapper for each information source automatically and performs information extraction and information integration by applying this wrapper to the corresponding source. In XTROS, both the domain knowledge and the wrapper are represented as XML-type documents. The wrapper generation algorithm first recognizes the meaning of each logical line of a sample document by using the domain knowledge, and then finds the most frequent pattern from the sequence of semantic representations of the logical lines. Eventually, the location and the structure of this pattern represented by an XML document becomes the wrapper. By testing XTROS on several real-estate information sites, we claim that it creates the correct wrappers for most Web sources and consequently facilitates effective information extraction and integration for heterogeneous and complex information sources.

정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업이다. 기존의 정보추출 시스템은 대부분 정보추출 규칙인 wrapper를 수동으로 구성하여 적용하였기 때문에 추출의 정확성은 높지만 유연성, 확장성, 효율성의 측면에서 문제점이 발생하였다. Wrapper를 자동으로 생성하는 일부 연구에서도 도메인 지식의 획득과 표현의 어려움, 그리고 여러 정보소스 사이에 나타나는 문서형태의 구조적 이질성 때문에 정확한 정보추출이 이루어지지 못했다. 본 논문에서는 이러한 이질적이고 복잡한 형태의 실세계 정보소스로부터의 정확한 정보추출을 추구하는 정보추출 에이전트인 XTROS를 제안한다. XTROS는 도메인 지식을 이용하여 준구조화된 형태의 정보소스에서 제공하는 문서를 분석하고 학습하여 wrapper들을 자동으로 생성하고, 이 wrapper들을 모두 XML 문서의 형태로 구성하는 새로운 표현기법을 제시함으로써 도메인 지식표현의 용이성과 wrapper 해석기 구현의 간결함, XML이 지닌 이식성 등을 최대한 활용하고자 하였다. Wrapper의 정보추출 규칙은 도메인 지식과 샘플 문서를 이용하여 자동으로 생성된다. 정보추출 규칙을 자동으로 생성하는 알고리즘의 핵심은 도메인 지식을 바탕을 샘플 문서의 각 논리 라인에 의미를 부여하고 이 논리 라인 의미의 나열로부터 반복되는 패턴을 찾아내는 것이다. 이 패턴의 위치와 구조를 XML 문서로 표현한 것이 wrapper가 된다. XTROS 시스템을 부동산 매물정보를 제공하는 다수의 실제 웹 정보소스에 대해서 테스트한 결과 이질성과 복잡성을 가진 대부분의 정보소스로부터 정확한 wrapper 생성과 정보추출이 가능하였다.

Keywords

References

  1. 최종민, 인터넷 정보추출 에이전트, 정보과학회지 18권 5호, pp. 48-53, 2000
  2. N. Kushmerick, Gleaning the Web, IEEE Intelligent Systems, vol.14, no.2, pp. 20-22, 1999 https://doi.org/10.1109/5254.757626
  3. Avrim Blum and Tom Mitchell, Combining Labeled and Unlabeled Data with Co-Training, Proceedings of the 1998 Conference on Computational Learning Theory, 1998 https://doi.org/10.1145/279943.279962
  4. Nicholas Kushmerick, Wrapper Induction for Information Extraction, Proceedings of 15th International Conference on Artificial Intelligence(IJCAI-95), pp. 729-735, 1995
  5. Marti,A. Hearst, Information Integration, IEEE Intellegent Systems, vol. 13, no. 5, pp. 12-24, 1998 https://doi.org/10.1109/5254.722342
  6. J.Yang, E. Lee and J. Choi, A Shopping Agent that Automatically Constructs Wrappers for Somi-Structured Online Vendors, Lecture Notes in Computer Science, vol. 1983, pp. 368-373, 2000 https://doi.org/10.1007/3-540-44491-2_53
  7. 양재영, 전자상거래에서 상점 Wrapper 생성을 위한 지능형 에이전트의 학습방안 연구, 한양대학교 전자계산학과 석사학위 논문, 2000
  8. J.Yang, H. Seo, N. Koo, J. Choi, J. Kim, S. Kim, K. Lee, and H. Ham, A More Scalable Comparison Shopping Agent, Engineering of Intelligent Systems(EIS 2000), pp. 766-772, Paisely, Scotland, 2000
  9. P. Atzeni, G. Mecca and P. Merialdo, Semistructured and Structured Data in the Web: Going Back and Forth, ACM SIGMOD Workshop on Management of Semi-structured Data, pp. 1-9, 1997 https://doi.org/10.1145/271074.271080
  10. J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yerneni, M. Breunig, V. Vassalos, Template-based Wrappcrs in the TSIMMIS system, ACM SIGMOD International Conference on Management of Data, pp. 532-535, 1997
  11. Ling Liu, Calton Pu, and Wei Han, XWRAP: An XML-based Wrapper Construction System for Web Information Sources, Proceedings of the 16th fnternational Conference on Data Engineering, 2000
  12. E. Riloff, Automatically Constructing a Dictionary for Information Extraction Tasks, Proceedings of the Eleventh Annual Conference on Artificial Intelligence(AAAI-93), pp. 811-816, 1993
  13. S. Huffman, Learning Information Extraction Patterns from Examples, Workshop on New Approaches to Learning for Natural Language Processing, IJACI-95, pp. 127-142, 1995
  14. S. Solderland, CRYSTAL: Inducing a Conceptual Dictionary, Proceedings of 15th International Conference on Artificial Intelligence(IJCAI-95), pp. 1314-1319, 1995
  15. S. Soderland, D. Fisher, and W. Lehnert., Automatically Learned vs. Hand-crafted Text Analysis Rules, Technical Report TE-44 at Center for Intelligent Information Retrieval, University of Massachusetts, 1997
  16. S. Soderland, Learning Text Analysis Rules For Domain-Specific Natural Language Proceesing, University Massachusetts Amherst, Department of Computer Science Ph.D thesis, 1997
  17. S. Solderland, Learning Information Extraction Rules for Semi-structured and Free Text, http://www.cs.washington.edu/homes/solderland/WHISK.ps