• 제목/요약/키워드: Search queries

검색결과 317건 처리시간 0.021초

능동적 재조정: TPR*-트리의 검색 성능 개선 방안 (Active Adjustment: An Approach for Improving the Search Performance of the TPR*-tree)

  • 김상욱;장민희;임성채
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.451-462
    • /
    • 2008
  • 최근 들어, 이동 객체의 위치 정보를 이용한 응용의 등장으로 시공간 데이터베이스를 위한 인덱스 기법의 중요성이 점차 커지고 있다. $TPR^*$-트리는 미래 시간 질의의 효율적인 처리를 위하여 가장 널리 사용되는 인덱스 구조이다. $TPR^*$-트리는 CBR(conservative bounding rectangle)의 개념을 이용하여 이동 객체들의 미래 위치의 범위를 추정하는 방식을 사용한다. 그러나 CBR은 시간이 지남에 따라 지나치게 확대 됨으로써 질의 처리 성능을 크게 저하시키는 문제를 야기시킨다. 본 논문에서는 능동적인 CBR 재조정을 통하여 이러한 CBR의 지나친 확대를 방지하고, 이 결과 $TPR^*$-트리의 질의 처리 성능을 개선할 수 있는 효과적인 기법을 제안한다. 제안한 기법은 질의 처리를 위하여 $TPR^*$-트리의 단말 노드를 액세스한 시점에 CBR 재조정의 필요여부를 점검하도록 함으로써 이러한 점검을 위한 추가적인 디스크 액세스 비용을 요구하지 않는다. 또한, CBR의 재조정이 필요한가의 여부를 판정하기 위하여 재조정을 위한 추가 비용과 향후의 질의 비용을 모두 고려하는 새로운 비용 모델을 정립한다. 제안된 기법을 통하여 갱신이 자주 발생하지 않는 경우에도 CBR의 비정상적인 확대를 방지할 수 있다. 제안된 기법의 성능 개선 효과를 정량적으로 검증하기 위하여 다양한 실험을 수행한다. 실험 결과에 의하면, 제안된 기법은 질의 처리 시 기존 기법과 비교하여 최대 40%이상의 성능 개선 효과를 보인다.

XML-GDM을 기반으로 한 UML 클래스 다이어그램으로 사상을 위한 XML문서와 질의의 객체 모델링 (Object Modeling for Mapping from XML Document and Query to UML Class Diagram based on XML-GDM)

  • 박대현;김용성
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.129-146
    • /
    • 2010
  • 최근 다양한 분야에서 폭넓게 활용되고 있는 XML 문서는 유연하고도 개방적인 특성으로 인해 정보교환이나 전송을 위한 수단으로 널리 이용되고 있다. 한편 XML 문서를 위한 시각적, 직관적 질의 언어인 XML-GL은 질의에 대한 의미와 결과 문서의 구조를 시각적으로 표현할 수 있기 때문에 XML 문서에 대한 구조 검색과 정보의 공유가 용이하다. 그리고 UML은 정해진 표기법과 다양한 다이어그램을 이용하여 객체지향 분석과 설계를 위한 도구로 사용되고 있다. 따라서 본 논문은 XML-GL의 데이터 모델인 XML-GDM을 기반으로 표현된 XML 문서를 UML 클래스 다이어그램으로 사상하기 위한 새로운 객체 모델링 방안을 제안한다. 이를 통해서 XML 문서를 직관적인 방법으로 객체지향데이터로 변환하고 저장/관리할 수 있다. 또한 객체지향 검색방법을 적용하면 보다 효율적으로 XML 문서를 검색할 수가 있다.

추론 비용 감소를 위한 Jess 추론과 시멘틱 웹 RL기반의 모바일 클라우드 상황인식 시스템 (Mobile Cloud Context-Awareness System based on Jess Inference and Semantic Web RL for Inference Cost Decline)

  • 정세훈;심춘보
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.19-30
    • /
    • 2012
  • 상황인식 서비스라는 개념은 컴퓨팅과 통신을 기반으로 서비스를 제공 받는자의 주변 상황을 컴퓨터가 인식하고 스스로 판단하여 사용자에게 유용한 정보를 제공하는 서비스이다. 그러나 모바일 환경에서 제한된 모바일 기능과 메모리 공간 및 추론 비용 증가로 인해 소규모의 상황인식 처리 능력을 가지는 단점과 추론 엔진의 부분 개발로 인한 상황 정보 추론 방식의 제한적인 형태로 나타나고 있다. 이에 본 논문에서는 특정 플랫폼에 종속되지 않고 다양한 모바일기기에서 상황인식 서비스를 제공받을 수 있도록 PaaS기반의 GAE을 이용한 모바일 클라우드 상황인식 시스템을 제안한다. 제안하는 시스템의 추론 설계 방식은 OWL의 온톨로지와 SWRL 규칙으로 표현되는 시멘틱 추론을 이용한 지식베이스 프레임워크와 규칙 기반의 추론 엔진을 제공하는 Jess를 활용하여 설계한다. 아울러 기존 추론 질의 방식인 시멘틱 검색의 SparQL 질의 추론 방식의 단점을 극복하고자 SWRL형태의 Rule 규칙 정보인 Class, Property, Individual등의 속성값들을 특정 플러그인을 이용하여 Jess 추론 엔진에 연결하도록 설계한다.

일본군 '위안부' 지식그래프: 파편화된 디지털 기록의 연결 (A Knowledge Graph on Japanese "Comfort Women": Interlinking Fragmented Digital Archival Resources)

  • 박하람;김학래
    • 한국기록관리학회지
    • /
    • 제21권3호
    • /
    • pp.61-78
    • /
    • 2021
  • 일본군 '위안부'에 대한 기록은 민간 기관에서 개별적으로 관리하고 있다. 일부 기록은 디지털 아카이브로 구축되어 온라인으로 접근할 수 있다. 그러나, 디지털 아카이브의 기록은 기관에 따라 메타데이터의 구성과 표현 방식이 다르다. 한편, 기록 사이의 관계를 정의할 수 있는 체계가 미흡하기 때문에, 현재 구축된 일본군 '위안부' 기록은 서로 연결되지 않고 파편적인 형식으로 남아있다. 본 연구는 일본군 '위안부' 디지털 기록을 연계하기 위한 지식 모델을 제안하고, 분산화된 디지털 아카이브의 기록을 통합하여 일본군 '위안부' 지식그래프를 구축한다. 일본군 '위안부' 디지털 아카이브의 메타데이터를 분석하여 공통 요소를 도출하고, 표준 어휘를 적용하여 디지털 기록의 다양한 개체와 개체 사이의 관계를 의미적으로 표현한다. 특히, 흩어져 있는 기록을 연계하고 검색하기 위해 수집한 데이터의 정제가 이루어지고, 외부데이터를 활용하여 기록의 맥락 정보를 강화하고 있다. 구축된 지식그래프의 검증은 분산된 기록의 탐색 여부를 측정하는 질의를 통해 수행된다. 검증 결과, 지식그래프는 흩어져 있는 기록을 연계하여 검색할 수 있고, 외부데이터로부터의 강화로 기록의 맥락 정보를 풍부하게 제공하며, 의미 기반의 검색을 통해 사용자의 의도에 맞춘 정확한 검색이 가능하다.

링크드 데이터를 이용한 인터랙티브 요리 비디오 질의 서비스 시스템 (An Interactive Cooking Video Query Service System with Linked Data)

  • 박우리;오경진;홍명덕;조근식
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.59-76
    • /
    • 2014
  • 스마트 미디어 장치의 발달로 인하여 시공간적인 제약이 없이 비디오를 시청 가능한 환경이 제공됨에 따라 사용자의 시청행태가 수동적인 시청에서 능동적인 시청으로 계속해서 변화하고 있다. 사용자는 비디오를 시청하면서 비디오를 볼 뿐 아니라 관심 있는 내용에 대한 세부적인 정보를 검색한다. 그 결과 사용자와 미디어 장치간의 인터랙션이 주요 관심사로 등장하였다. 이러한 환경에서 사용자들은 일방적으로 정보를 제공해주는 것보다는 자신이 원하는 정보를 웹 검색을 통해 사용자 스스로 정보를 찾지 않고, 쉽고 빠르게 정보를 얻을 수 있는 방법의 필요성을 인식하게 되었으며 그에 따라 인터랙션을 직접 수행하는 것에 대한 요구가 증가하였다. 또한 많은 정보의 홍수 속에서 정확한 정보를 얻는 것이 중요한 이슈가 되었다. 이러한 사용자들의 요구사항을 만족시키기 위해 사용자 인터랙션 기능을 제공하고, 링크드 데이터를 적용한 시스템이 필요한 상황이다. 본 논문에서는 여러 분야 중에서 사람들이 가장 관심 있는 분야중 하나인 요리를 선택하여 문제점을 발견하고 개선하기 위한 방안을 살펴보았다. 요리는 사람들이 지속적인 관심을 갖는 분야이다. 레시피, 비디오, 텍스트와 같은 요리에 관련된 정보들이 끊임없이 증가하여 빅 데이터의 한 부분으로 발전하였지만 사용자와 요리 콘텐츠간의 인터랙션을 제공하는 방법과 기능이 부족하고, 정보가 부정확하다는 문제점을 가지고 있다. 사용자들은 쉽게 요리 비디오를 시청할 수 있지만 비디오는 단 방향으로만 정보를 제공하기 때문에 사용자들의 요구사항을 충족시키기 어렵고, 검색을 통해 정확한 정보를 얻는 것이 어렵다. 이러한 문제를 해결하기 위하여 본 논문에서는 요리 비디오 시청과 동시에 정보제공을 위한 UI(User Interface), UX(User Experience)를 통해 사용자의 편의성을 고려한 환경을 제시하고, 컨텍스트에 맞는 정확한 정보를 제공하기 위해 링크드 데이터를 이용하여 사용자와 비디오 간에 인터랙션을 위한 요리보조 서비스 시스템을 제안한다.

시맨틱 웹 자원의 랭킹을 위한 알고리즘: 클래스중심 접근방법 (A Ranking Algorithm for Semantic Web Resources: A Class-oriented Approach)

  • 노상규;박현정;박진수
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.31-59
    • /
    • 2007
  • We frequently use search engines to find relevant information in the Web but still end up with too much information. In order to solve this problem of information overload, ranking algorithms have been applied to various domains. As more information will be available in the future, effectively and efficiently ranking search results will become more critical. In this paper, we propose a ranking algorithm for the Semantic Web resources, specifically RDF resources. Traditionally, the importance of a particular Web page is estimated based on the number of key words found in the page, which is subject to manipulation. In contrast, link analysis methods such as Google's PageRank capitalize on the information which is inherent in the link structure of the Web graph. PageRank considers a certain page highly important if it is referred to by many other pages. The degree of the importance also increases if the importance of the referring pages is high. Kleinberg's algorithm is another link-structure based ranking algorithm for Web pages. Unlike PageRank, Kleinberg's algorithm utilizes two kinds of scores: the authority score and the hub score. If a page has a high authority score, it is an authority on a given topic and many pages refer to it. A page with a high hub score links to many authoritative pages. As mentioned above, the link-structure based ranking method has been playing an essential role in World Wide Web(WWW), and nowadays, many people recognize the effectiveness and efficiency of it. On the other hand, as Resource Description Framework(RDF) data model forms the foundation of the Semantic Web, any information in the Semantic Web can be expressed with RDF graph, making the ranking algorithm for RDF knowledge bases greatly important. The RDF graph consists of nodes and directional links similar to the Web graph. As a result, the link-structure based ranking method seems to be highly applicable to ranking the Semantic Web resources. However, the information space of the Semantic Web is more complex than that of WWW. For instance, WWW can be considered as one huge class, i.e., a collection of Web pages, which has only a recursive property, i.e., a 'refers to' property corresponding to the hyperlinks. However, the Semantic Web encompasses various kinds of classes and properties, and consequently, ranking methods used in WWW should be modified to reflect the complexity of the information space in the Semantic Web. Previous research addressed the ranking problem of query results retrieved from RDF knowledge bases. Mukherjea and Bamba modified Kleinberg's algorithm in order to apply their algorithm to rank the Semantic Web resources. They defined the objectivity score and the subjectivity score of a resource, which correspond to the authority score and the hub score of Kleinberg's, respectively. They concentrated on the diversity of properties and introduced property weights to control the influence of a resource on another resource depending on the characteristic of the property linking the two resources. A node with a high objectivity score becomes the object of many RDF triples, and a node with a high subjectivity score becomes the subject of many RDF triples. They developed several kinds of Semantic Web systems in order to validate their technique and showed some experimental results verifying the applicability of their method to the Semantic Web. Despite their efforts, however, there remained some limitations which they reported in their paper. First, their algorithm is useful only when a Semantic Web system represents most of the knowledge pertaining to a certain domain. In other words, the ratio of links to nodes should be high, or overall resources should be described in detail, to a certain degree for their algorithm to properly work. Second, a Tightly-Knit Community(TKC) effect, the phenomenon that pages which are less important but yet densely connected have higher scores than the ones that are more important but sparsely connected, remains as problematic. Third, a resource may have a high score, not because it is actually important, but simply because it is very common and as a consequence it has many links pointing to it. In this paper, we examine such ranking problems from a novel perspective and propose a new algorithm which can solve the problems under the previous studies. Our proposed method is based on a class-oriented approach. In contrast to the predicate-oriented approach entertained by the previous research, a user, under our approach, determines the weights of a property by comparing its relative significance to the other properties when evaluating the importance of resources in a specific class. This approach stems from the idea that most queries are supposed to find resources belonging to the same class in the Semantic Web, which consists of many heterogeneous classes in RDF Schema. This approach closely reflects the way that people, in the real world, evaluate something, and will turn out to be superior to the predicate-oriented approach for the Semantic Web. Our proposed algorithm can resolve the TKC(Tightly Knit Community) effect, and further can shed lights on other limitations posed by the previous research. In addition, we propose two ways to incorporate data-type properties which have not been employed even in the case when they have some significance on the resource importance. We designed an experiment to show the effectiveness of our proposed algorithm and the validity of ranking results, which was not tried ever in previous research. We also conducted a comprehensive mathematical analysis, which was overlooked in previous research. The mathematical analysis enabled us to simplify the calculation procedure. Finally, we summarize our experimental results and discuss further research issues.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.