DOI QR코드

DOI QR Code

Concept Extraction Technique from Documents Using Domain Ontology

지식 문서에서 도메인 온톨로지를 이용한 개념 추출 기법

  • Published : 2006.06.01

Abstract

We propose a novel technique to categorize XML documents and extract a concept efficiently using domain ontology. First, we create domain ontology that use text mining technique and statistical technique. We propose a DScore technique to classify XML documents by using the structural characteristic of XML document. We also present TScore technique to extract a concept by comparing the association term set of domain ontology and the terms in the XML document. To verify the efficiency of the proposed technique, we perform experiment for 295 papers in the computer science area. The results of experiment show that the proposed technique using the structural information in the XML documents is more efficient than the existing technique. Especially, the TScore technique effectively extract the concept of documents although frequency of term is few. Hence, the proposed concept-based retrieval techniques can be expected to contribute to the development of an efficient ontology-based knowledge management system.

본 논문에서는 도메인 온톨로지를 이용하여 XML 형식의 지식 문서를 분류하고 대표 개념을 효과적으로 추출하기 위한 기법을 제시하였다. 먼저, 도메인 온톨로지는 텍스트마이닝 기법과 통계적 기법을 이용하여 생성하였다. 이를 위해 XML 문서의 구조적인 특징을 이용하여 도메인 대표용어 집합을 구성하였다. 그리고 XML 문서를 효과적으로 분류하기 위한 DScore 기법과 지식 문서로부터 개념을 추출하기 위한 TScore 기법을 제시하였다. 본 논문에서 제안한 기법의 효율성을 검증하기 위하여 295편의 컴퓨터 관련 논문을 대상으로 실험하였다. 실험 결과, 본 연구에서 제안한 도메인 대표 용어 집합을 이용한 분류 결과가 기존의 방법보다 우수한 성능을 보였다. 특히 TScore기법에서는 문서에서 출현한 용어의 빈도수는 낮더라도 문서의 개념을 대표할 수 있는 용어를 효과적으로 추출할 수 있음을 보였다. 본 연구는 개념 기반의 검색 기법을 통하여 대량의 지식 문서를 효과적으로 관리하기 위한 지식 관리 모델에 적용할 수 있다.

Keywords

References

  1. E. Hyvonen, S. Saarela, K. Viljanen, 'Ontogator: combining view- and ontology-based search with semantic browsing,' Proc. of the XML Finland Conference, 2003
  2. P. V. Benjamins, D. Fensel, and A. G. Perez, 'Knowledge Management through Ontologies,' Proc. of the Practical Aspects of Knowledge Management, 1998
  3. Y. Sure and et al., On-To-Knowledge: Semantic Web Enabled Knowledge Management, J. Wiley and Sons, 2002
  4. R. Benjamins and D. Fensel, 'The Ontological Engineering Initiative$(KA)^{2″}$,' Proc. of Formal Ontologies in Information Systems, pp.287-301, 1998
  5. S. Decker, M. Erdmann, D. Fensel, and R. Studer, Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information, In R. Meersman et al., editors, Database Semantics: Semantic Issues in Multimedia Systems, Kluwer Academic Publisher, pp.351-369, 1999
  6. D. L. McGuinness, 'Ontological Issues for Knowledge-Enhanced Search,' Proc. of the Formal Ontology in Information Systems, pp.302-316, 1998
  7. 최옥경, 한상용, '자동화된 통합 프레임워크를 위한 시맨틱 웹 기반의 정보 검색 시스템,' 한국정보처리학회 논문지, Vol.13, No.1, pp.129-136, 2006 https://doi.org/10.3745/KIPSTC.2006.13C.1.129
  8. E. Hyvonen and et al 'Finish Museum on the Semantic Web User's Perspective,' Proc. of the Museums and the Web, 2004
  9. A. Maedche, 'A Machine Learning Perspective for the Semantic Web,' Proc. of the Semantic Web Working Symposium, 2001
  10. 김명숙, 공용해, '온톨로지-DTD 정합에 의한 XML 질의 확장,' 한국정보처리학회 논문지, Vol.12, No.5 pp.773-780, 2005 https://doi.org/10.3745/KIPSTD.2005.12D.5.773
  11. 이무훈, 조현규, 조현성, 조성훈, 장창복, 최의인, '웹 문서의 의미적 연관성 기술을 위한 온톨로지 에디터,' 한국정보처리학회 논문지, Vol.12, No.5, pp.881-888, 2005 https://doi.org/10.3745/KIPSTD.2005.12D.6.881
  12. 오삼균, 'Web Ontology Languages와 그 활용에 관한 고찰,' 데이터베이스연구학회지, Vol.18, No.3, pp.63-79, 2002
  13. G. A. Miller, 'WordNet : A Lexical Database for English,' Communication of the ACM, Vol.38, No.11, pp.39-41, 1995 https://doi.org/10.1145/219717.219748
  14. K. Knight and S. Luk, 'Building a Large-Scale Knowledge Base for Machine Translation,' Proc. of the AAAI, 1994
  15. Cycorp, 'Cyc Knowledge Server,' http://www.cyc.com, 2002
  16. H. J. Mun, J. Y. Lee and Y. T. Woo, 'A Domain Ontology Creation Method for Ontology-based Knowledge Management Model,' Int'l Journal of ACIS, pp.99-108, 2005
  17. goRank,.com, 'Google Ontology Analysis,' http://www.gorank.com/researeh/google_ontology_analysis.php, 2004