• 제목/요약/키워드: RDF schema

검색결과 69건 처리시간 0.024초

웹 문서의 메타데이터 관리를 위한 XMP 및 온톨로지 기반의 시맨틱 어노테이션 지원도구 개발 (On Developing a Semantic Annotation Tool for Managing Metadata of Web Documents based on XMP and Ontology)

  • 양경모;황석형;최성희
    • 한국산학기술학회논문지
    • /
    • 제10권7호
    • /
    • pp.1585-1600
    • /
    • 2009
  • 시맨틱 웹에서는 기계가 처리할 수 있는 의미 정보를 토대로 보다 효율적이고 효과적인 시맨틱 검색과 웹서비스를 제공하는 것을 목적으로 한다. 따라서, 다양한 웹 컨텐츠들에 대하여 컴퓨터가 이해 가능한 형식으로 메타데이터를 생성하고 추가하는 과정, 즉, 시맨틱 어노테이션이 시맨틱 웹의 중요한 기반기술 중의 하나이다. 최근에는 어노테이션 정보를 관리하기 위해서, 대상문서 내부에 메타데이터를 직접 내장시키는 기법이 주로 사용되고 있다. 그러나, 웹 문서의 시맨틱 어노테이션과 관련하여 기존의 지원도구들은, 주로 HTML 문서를 대상으로 하고 있고, 대부분의 도구들에서는 메타데이터를 활용한 시맨틱 검색기능을 제공하지 않고 있다. 본 연구에서는, 이와 같은 문제점들과 기존의 관련 연구결과들을 토대로, 웹 문서(HTML, PDF)들에 대한 시맨틱 어노테이션을 보다 효율적으로 지원하기 위한 온톨로지 기반의 시맨틱 어노테이션 지원도구(OSA)를 개발하였다. OSA에서는, RDFS(RDF Schema)로 시맨틱 어노테이션 모델을 정의하고, 이를 토대로 온톨로지 기반의 의미정보들을 표현하며, XMP(eXtensible Metadata Platform)표준에 맞추어서 해당 디지털 문서 내에 시맨틱 어노테이션 정보를 내장시킨다. 본 연구에서 개발한 어노테이션 도구를 활용함으로써, 웹 문서에 대한 효율적인 시맨틱 어노테이션이 가능하며, XMP를 기반으로 웹 문서 자체와 시맨틱 어노테이션 정보를 일체화시킴으로써 어노테이션 정보관리에 정합성을 유지할 수 있으므로, 향후 다양한 웹 컨텐츠에 대한 시맨틱 검색에 효과적으로 활용될 수 있다.

시맨틱 웹 자원의 랭킹을 위한 알고리즘: 클래스중심 접근방법 (A Ranking Algorithm for Semantic Web Resources: A Class-oriented Approach)

  • 노상규;박현정;박진수
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.31-59
    • /
    • 2007
  • We frequently use search engines to find relevant information in the Web but still end up with too much information. In order to solve this problem of information overload, ranking algorithms have been applied to various domains. As more information will be available in the future, effectively and efficiently ranking search results will become more critical. In this paper, we propose a ranking algorithm for the Semantic Web resources, specifically RDF resources. Traditionally, the importance of a particular Web page is estimated based on the number of key words found in the page, which is subject to manipulation. In contrast, link analysis methods such as Google's PageRank capitalize on the information which is inherent in the link structure of the Web graph. PageRank considers a certain page highly important if it is referred to by many other pages. The degree of the importance also increases if the importance of the referring pages is high. Kleinberg's algorithm is another link-structure based ranking algorithm for Web pages. Unlike PageRank, Kleinberg's algorithm utilizes two kinds of scores: the authority score and the hub score. If a page has a high authority score, it is an authority on a given topic and many pages refer to it. A page with a high hub score links to many authoritative pages. As mentioned above, the link-structure based ranking method has been playing an essential role in World Wide Web(WWW), and nowadays, many people recognize the effectiveness and efficiency of it. On the other hand, as Resource Description Framework(RDF) data model forms the foundation of the Semantic Web, any information in the Semantic Web can be expressed with RDF graph, making the ranking algorithm for RDF knowledge bases greatly important. The RDF graph consists of nodes and directional links similar to the Web graph. As a result, the link-structure based ranking method seems to be highly applicable to ranking the Semantic Web resources. However, the information space of the Semantic Web is more complex than that of WWW. For instance, WWW can be considered as one huge class, i.e., a collection of Web pages, which has only a recursive property, i.e., a 'refers to' property corresponding to the hyperlinks. However, the Semantic Web encompasses various kinds of classes and properties, and consequently, ranking methods used in WWW should be modified to reflect the complexity of the information space in the Semantic Web. Previous research addressed the ranking problem of query results retrieved from RDF knowledge bases. Mukherjea and Bamba modified Kleinberg's algorithm in order to apply their algorithm to rank the Semantic Web resources. They defined the objectivity score and the subjectivity score of a resource, which correspond to the authority score and the hub score of Kleinberg's, respectively. They concentrated on the diversity of properties and introduced property weights to control the influence of a resource on another resource depending on the characteristic of the property linking the two resources. A node with a high objectivity score becomes the object of many RDF triples, and a node with a high subjectivity score becomes the subject of many RDF triples. They developed several kinds of Semantic Web systems in order to validate their technique and showed some experimental results verifying the applicability of their method to the Semantic Web. Despite their efforts, however, there remained some limitations which they reported in their paper. First, their algorithm is useful only when a Semantic Web system represents most of the knowledge pertaining to a certain domain. In other words, the ratio of links to nodes should be high, or overall resources should be described in detail, to a certain degree for their algorithm to properly work. Second, a Tightly-Knit Community(TKC) effect, the phenomenon that pages which are less important but yet densely connected have higher scores than the ones that are more important but sparsely connected, remains as problematic. Third, a resource may have a high score, not because it is actually important, but simply because it is very common and as a consequence it has many links pointing to it. In this paper, we examine such ranking problems from a novel perspective and propose a new algorithm which can solve the problems under the previous studies. Our proposed method is based on a class-oriented approach. In contrast to the predicate-oriented approach entertained by the previous research, a user, under our approach, determines the weights of a property by comparing its relative significance to the other properties when evaluating the importance of resources in a specific class. This approach stems from the idea that most queries are supposed to find resources belonging to the same class in the Semantic Web, which consists of many heterogeneous classes in RDF Schema. This approach closely reflects the way that people, in the real world, evaluate something, and will turn out to be superior to the predicate-oriented approach for the Semantic Web. Our proposed algorithm can resolve the TKC(Tightly Knit Community) effect, and further can shed lights on other limitations posed by the previous research. In addition, we propose two ways to incorporate data-type properties which have not been employed even in the case when they have some significance on the resource importance. We designed an experiment to show the effectiveness of our proposed algorithm and the validity of ranking results, which was not tried ever in previous research. We also conducted a comprehensive mathematical analysis, which was overlooked in previous research. The mathematical analysis enabled us to simplify the calculation procedure. Finally, we summarize our experimental results and discuss further research issues.

관계형 데이터베이스에서의 시맨틱 기반 키워드 탐색 시스템 (Semantic-based Keyword Search System over Relational Database)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.91-101
    • /
    • 2013
  • 키워드의 모호성은 효율적인 키워드 탐색에 있어서 일반적인 이슈가 되어왔는데, 이 모호성은 탐색결과의 신뢰성에 큰 영향을 줄 수 있으며, 기본적으로 질의에 사용된 용어 자체가 가지는 문맥상 의미의 모호함에 기인한다. 질의 자체의 모호함뿐만 아니라, 사용자들이 그 탐색 결과를 적절하게 해석하기 위해 결과에 나타나는 키워드간의 관계도 중요하므로 명확하게 명시 되어야 한다. 이 논문에서는 기존의 질의 용어와 스키마 용어/인스턴스간의 키워드 매핑기법을 적용하여 키워드 탐색의 모호성을 해결한다. 용어간의 매핑에서는 질의 키워드와 스키마 용어간의 구문적 유사성은 물론 시맨틱 유사성까지 고려하기 때문에 기존의 시스템에 비해 매핑과 정밀도가 50% 이상 상승하는 결과를 얻을 수 있다. 탐색결과에 나타나는 용어간의 불분명한 관계를 점 더 명확하게 나타내기 위하여 시맨틱 웹 기술을 적용하여 키워드간의 의미 있는 관계를 더 많이 지식베이스 내에서 찾을 수 있도록 하였다.

연구 활동 지원을 위한 적응형 연구정보 지원 포털 구축에 관한 연구 (A Study on Developing an Adaptive R&D Information Service Portal)

  • 최성필;조현양
    • 한국문헌정보학회지
    • /
    • 제41권4호
    • /
    • pp.229-250
    • /
    • 2007
  • 본 논문은 특정 분야에서 이미 일정 수준에 있는 전문가를 활용하여 연구 초기에서 발생하는 신진 연구자들의 이러한 어려움을 좀 더 쉽게 해결해 줄 수 있는 방법을 제시하고자 하였다. 이를 위하여, 단순한 형태의 연구계획 생성 기능(research scheduling function)을 갖춘 적응형 연구지원 포털시스템을 개발하였으며, 기존의 지식베이스 구축방법에서 탈피하여 분야 전문가가 자신의 지식을 효율적으로 표현할 수 있는 스키마 구조와 구축방법론을 제시하였다. 본 논문에서 개발된 시스템의 단순성과 확장 가능성으로 향후 다양한 발전적 모델이 될 수 있을 것이다.

URI 서버 내 DB 스키마 자동 생성 연구 (Study on the Automatic Generation of DB Schema in URI Server)

  • 정한민;이미경;강인수;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-113
    • /
    • 2007
  • 본 연구는 시맨틱 데이터 정합성 검사와 RDF 트리플 생성 기능을 가진 URI 서버 내 DB 스키마의 자동 생성 방안을 기술한다. URI 서버는 시맨틱 웹 기술 기반 프레임워크 구성에 필요한 핵심 엔진으로서 인스턴스 생성 관리기, 검색 엔진, 추론 엔진 등과의 상호 작용을 통해 시맨틱 데이터를 서비스한다. 도메인이 바뀌거나 서비스가 변경되는 경우 DB 스키마를 전문가에 의해 수작업으로 생성함으로써 서비스 환경 변화에 즉각 대응하지 못하는 문제점을 가진 기존 URI 서버를, 적재되는 온톨로지에 따라 DB 스키마를 동적으로 자동 생성하는 방식으로 변경함으로써 다양한 응용 분야와 도메인에의 높은 이식성(Portability)을 보장할 수 있도록 한다. 기반정보 온톨로지, 응용 온톨로지, 개인화 온톨로지 등 3개 온톨로지 스키마와 11만 건 이상의 Citeseer Open Access Metadata로부터 추출된 인스턴스를 대상으로 한 실험을 통해 URI 서버 내 DB 스키마 자동 생성 가능성을 실증하였다.

  • PDF

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

시맨틱 주석을 이용한 내용 기반 데이터 검색 (Content based data search using semantic annotation)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.429-436
    • /
    • 2011
  • 인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.

단일머신 환경에서의 논리적 프로그래밍 방식 기반 대용량 RDFS 추론 기법 (Scalable RDFS Reasoning using Logic Programming Approach in a Single Machine)

  • 바트셀렘 작바랄;김제민;이완곤;박영택
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.762-773
    • /
    • 2014
  • 시맨틱 웹상에서 RDFS로 표현된 데이터의 사용 증가로 인하여, 대용량 데이터의 추론에 대한 많은 요구가 생겨나고 있다. 많은 연구자들은 대용량 온톨로지 추론을 수행하기 위해서 하둡과 같은 고가의 분산 프레임워크를 활용한다. 그러나, 적절한 사이즈의 RDFS 트리플 추론을 위해서는 굳이 고가의 분산 환경 시스템을 사용하지 않고 단일 머신에서도 논리적 프로그래밍을 이용하면 분산 환경과 유사한 추론 성능을 얻을 수 있다. 본 논문에서는 단일 머신에 논리적 프로그래밍 방식을 적용한 대용량 RDFS 추론 기법을 제안하였고 다중 머신을 기반으로 한 분산 환경 시스템과 비교하여 2억개 정도의 트리플에 대한 RDFS 추론 시스템을 적용한 경우 분산환경과 비슷한 성능을 보이는 것을 실험적으로 증명하였다. 효율적인 추론을 위해 온톨로지 모델을 세부적으로 분리한 메타데이터 구조와 대용량 트리플의 색인 방안을 제안하고 이를 위해서 전체 트리플을 하나의 모델로 로딩하는 것이 아니라 각각 온톨로지 추론 규칙에 따라 적절한 트리플 집합을 선택하였다. 또한 논리 프로그래밍이 제공하는 Unification 알고리즘 기반의 트리플 매칭, 검색, Conjunctive 질의어 처리 기반을 활용하는 온톨로지 추론 방식을 제안한다. 제안된 기법이 적용된 추론 엔진을 LUBM1500(트리플 수 2억개) 에 대해서 실험한 결과 166K/sec의 추론 성능을 얻었는데 이는 8개의 노드(8 코아/노드)환경에서 맵-리듀스로 수행한 WebPIE의 185K/sec의 추론 속도와 유사함을 실험적으로 증명하였다. 따라서 단일 머신에서 수행되는 본 연구 결과는 트리플의 수가 2억개 정도까지는 분산환경시스템을 활용하지 않고도 분산환경 시스템과 비교해서 비슷한 성능을 보이는 것을 확인할 수 있었다.

RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법 (A Dynamic Management Method for FOAF Using RSS and OLAP cube)

  • 손종수;정인정
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.39-60
    • /
    • 2011
  • 웹 2.0 기술이 소개된 이후 소셜 네트워크 서비스는 미래 정보기술의 기초로서 중요하게 인식되고 있다. 이에, 웹2.0 환경에서 소셜 네트워크를 구축하기 위하여 온톨로지 기반의 사용자 프로필 기술 도구인 FOAF를 활용하기 위한 다양한 연구가 이뤄지고 있다. 그러나 FOAF를 이용하여 소셜 네트워크를 생성 및 관리하는 대부분의 방법은 시간의 흐름에 따라 변화하는 사용자의 소셜 네트워크를 자동적으로 반영하기 어려운 단점이 있으며 다양한 소셜 미디어 서비스가 제공되는 환경에서는 FOAF를 동적으로 관리하기가 쉽지 않다. 따라서 본 논문에서는 기존 FOAF를 이용한 소셜 네트워크 추출방법의 한계를 극복하기 위하여 사용자 프로파일 기술 언어인 FOAF와 웹 저작물 출판 매커니즘인 RSS를 OLAP 시스템에 적용시켜 동적으로 FOAF를 갱신하고 관리하기 위한 방법을 제안한다. 본 논문에서 제안하는 방법은 수집한 FOAF와 RSS 파일들을 스타스키마로 설계된 데이터베이스에 넣어 OLAP 큐브를 생성한다. 그리고 OLAP 연산을 이용하여 사용자의 연결관계를 분석하고 FOAF에 그 결과를 반영한다. 본 논문에서 제안하는 방법은 이기종 분산처리 환경 하에서 데이터의 상호호환성을 보장할 뿐만 아니라 시간의 흐름에 따른 사용자의 관심 및 이슈 등의 변화를 효과적으로 반영한다.