• 제목/요약/키워드: Language-Based Retrieval Model

검색결과 73건 처리시간 0.024초

XPOS: 효율적인 질의 처리를 위한 XPath 기반의 OWL 저장 모델 (XPOS: XPath-based OWL Storage Model for Effective Query Processing)

  • 김진형;정동원;백두권
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권3호
    • /
    • pp.243-256
    • /
    • 2008
  • 최근 인터넷의 급속한 발달로 인해 웹 상의 정보 양이 엄청나게 증가하고 있다. 하지만 현재 웹 상의 정보들은 사람이 읽고 해석하기에만 편리하게 설계되어 원하는 정보에 대한 정확한 검색이 어려워지고 있다. 이러한 문제점을 해결하기 위해 시맨틱 웹이 제안되었으며, 이를 구축하기 위해서는 데이타에 의미를 부여하는 온톨로지 언어를 사용해야 한다. 대표적인 은톨로지 언어는 RDF, RDF-S, OWL 등이 있다. 이러한 언어들 중 OWL은 W3C에서 권고안으로 채택한 언어로써 다른 온톨로지 언어에 비해 풍부한 표현력과 형식적인 의미론을 지닌다. 또한 OWL 데이타는 클래스/프로퍼티들 간의 계층 구조 정보를 포함한다. 따라서, 시맨틱 웹 상에서 데이타의 효율적인 검색을 위해서는 계층적 구조를 고려한 효율적인 OWL 저장 모델이 필요하다. 이 논문에서는 OWL 데이타의 클래스/프로퍼티들 간 계층 정보를 XPath 형태로 포함하며, 직관적이고 효율적인 질의 처리가 가능한 저장 모델(XPOS Model) 및 시스템을 제안한다. 또한, 제안 모델, Sesame, XML 저장소 기반 저장 시스템을 질의 처리 측면에서 성능에 대한 비교 평가 결과를 보인다.

대용량 XML 문서의 효율적인 검색과 관리를 위한 SCOF 모델 (Service-centric Object Fragmentation Model for Efficient Retrieval and Management of Huge XML Documents)

  • 정창후;최윤수;진두석;김진숙;윤화묵
    • 인터넷정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.103-113
    • /
    • 2008
  • XML 문서가 증가하면서 XML 문서를 처리하는 방법론에 대한 많은 논의가 있어왔다. 본 논문에서는 두 가지 중요한 목적을 가지고 XML 정보 검색 및 관리 시스템을 개발하는데, 첫 번째는 질의에 적합한 내용을 쉽고 빠르게 검색해서 제공하는 것이고, 두 번째는 시스템의 부담을 최소화하면서 효율적이고 안정적인 관리 기능을 제공하는 것이다. 이렇게 실용적인 시스템을 개발하는 핵심 기술은 XML 문서를 어떻게 효과적으로 분할하여 구조적으로 서비스하는가에 달려 있다. 이러한 목적을 달성하기 위하여 본 논문에서는 SCOF(Service-centric Object Fragmentation) 모델을 제안한다. SCOF 모델은 XML 데이터 베이스 관리자에 의해서 정의되는 변환 규칙(conversion rule)을 이용하여 문서를 분할하는 준분할(semi-decomposition) 저장 방식이다. SCOF 모델을 사용한 키워드 기반 검색은 전형적인 XML 질의 언어처럼 문서의 특정 엘리먼트나 속성 값을 이용하여 검색을 수행할 수 있다. 비록 이러한 접근법이 XML 문서 컬렉션에 대한 관리자의 지식을 필요로 한다고 하더라도, 개별 문서의 크기나 전체 문서의 양에 상관없이 검색과 관리를 효율적으로 수행할 수 있기 때문에 실용적인 시스템을 구축할 수 있다는 장점이 있다.

  • PDF

디지털 음악 콘텐츠의 확장된 검색을 지원하는 한국어 기반 감성 모델과 온톨로지 설계 (Designing emotional model and Ontology based on Korean to support extended search of digital music content)

  • 김선경;신판섭;임해철
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권5호
    • /
    • pp.43-52
    • /
    • 2013
  • 대량의 음악 콘텐츠가 유통되는 초고속 인터넷 환경에서, 사용자가 원하는 음악 콘텐츠를 효과적으로 검색하기 위한 연구들이 다양하게 수행되고 있다. 특히, 음악 정보 검색(MIR: Music Information Retrieval) 연구에 감성 모델을 접목한 음악 추천 시스템 개발도 활발하게 진행되고 있다. 그러나, 적용된 감성 모델이 단순하고, 한국어를 대상으로 하지 않아 한국어의 의미적 감성 표현 처리에 한계점을 가진다. 따라서, 본 논문에서는, 한국어를 기반으로, 기존의 감성 모델을 확장한 새로운 감성 모델(KORean Emotional Model : KOREM)을 제안하고, 이를 온톨로지(Music EMotional Ontology : MEMO)로 설계 및 구현하였다. 이를 통해, 한글로 서술된 폭넓고 다양한 감성적 표현을 이용한 음악 콘텐츠의 분류, 저장 및 검색이 가능하다.

모델변환을 이용한 비즈니스 프로세스 프레임워크 5레이어 모델 자동 구축 방안 (Automatic 5 Layer Model construction of Business Process Framework(BPF) with M2T Transformation)

  • 서채연;김영철
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.63-70
    • /
    • 2013
  • 기존 연구에서는 비즈니스 프로세스 프레임워크에서 정보 추출 및 검색을 위해 비즈니스 프로세스 시스템 질의 언어(BPSQL)를 제안했고, 기존 질의(Query)언어를 그대로 사용하기 위해 비즈니스 프로세스 프레임워크 내 각 레이어 정보들을 테이블화했지만, 레이어 정보의 스펙을 가지고 데이터베이스 구축을 수작업하는 단점이 있다. 이런 문제를 해결하기 위해 메타모델 기반의 모델-텍스트 변환기법을 적용하여, 5 레이어의 비즈니스 프로세스 모델 스키마 기반의 구축 자동 방법을 제안한다. 이를 위한 단계절차는 전체 구조와 데이터베이스 스키마의 메타 모델 정의, 모델 변형 규칙 정의 순이다. 통합정보시스템 설계의 메타 모델링을 통한 각 레이어 스펙정의와 전체 레이어 모델정보 테이블 스키마 스펙을 정의하고, 이 두 스펙 정의를 가지고 모델-텍스트 변환기법을 통해 자동으로 전체 시스템이 구축 된다. 이를 통해서 통합정보시스템 구축이 효율적으로 될 수 있다.

Incorporating Deep Median Networks for Arabic Document Retrieval Using Word Embeddings-Based Query Expansion

  • Yasir Hadi Farhan;Mohanaad Shakir;Mustafa Abd Tareq;Boumedyen Shannaq
    • Journal of Information Science Theory and Practice
    • /
    • 제12권3호
    • /
    • pp.36-48
    • /
    • 2024
  • The information retrieval (IR) process often encounters a challenge known as query-document vocabulary mismatch, where user queries do not align with document content, impacting search effectiveness. Automatic query expansion (AQE) techniques aim to mitigate this issue by augmenting user queries with related terms or synonyms. Word embedding, particularly Word2Vec, has gained prominence for AQE due to its ability to represent words as real-number vectors. However, AQE methods typically expand individual query terms, potentially leading to query drift if not carefully selected. To address this, researchers propose utilizing median vectors derived from deep median networks to capture query similarity comprehensively. Integrating median vectors into candidate term generation and combining them with the BM25 probabilistic model and two IR strategies (EQE1 and V2Q) yields promising results, outperforming baseline methods in experimental settings.

XML 문서의 효율적인 검색과 관리를 위한 SCOF 모델 (Service-centric Object Fragmentation Model for Efficient Retrieval and Management of XML Documents)

  • 정창후
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.595-598
    • /
    • 2007
  • XML 문서가 기하급수적으로 증가하면서 XML 문서를 처리하는 방법론에 대한 많은 논의가 있어왔다. 본 논문에서는 두 가지 중요한 목적을 가지고 XML 정보 검색 및 관리 시스템을 개발하는데, 첫 번째는 질의에 적합한 내용을 쉽고 빠르게 검색해서 제공하는 것이고, 두 번째는 시스템의 부담을 최소화하면서 효율적이고 안정적인 관리 기능을 제공하는 것이다. 이렇게 실용적인 시스템을 개발하는 핵심 기술은 XML 문서를 어떻게 효과적으로 분할하여 구조적으로 서비스하는가에 달려 있다. 이러한 목적을 달성하기 위하여 본 논문에서는 SCOF(Service-centric Object Fragmentation) 모델을 제안한다. SCOF 모델은 XML 데이터베이스 관리자에 의해서 정의되는 변환 규칙(conversion rule)을 이용하여 문서를 분할하는 준분할(semi-decomposition) 저장 방식이다. SCOF 모델을 사용한 키워드 기반 검색은 전형적인 XML 질의 언어처럼 문서의 특정 엘리먼트나 속성 값을 이용하여 검색을 수행할 수 있다. 비록 이러한 접근법이 XML 문서 컬렉션에 대한 관리자의 지식을 필요로 한다고 하더라도, 개별 문서의 크기나 전체 문서의 양에 상관없이 검색과 관리를 효율적으로 수행할 수 있기 때문에 실용적인 시스템을 구축할 수 있다는 장점이 있다.

  • PDF

모바일 증강현실을 위한 온톨로지 기반 POI 데이터 모델 (Ontology-based Points of Interest Data Model for Mobile Augmented Reality)

  • 김병호
    • 한국IT서비스학회지
    • /
    • 제10권4호
    • /
    • pp.269-280
    • /
    • 2011
  • Mobile Augmented Reality (mobile AR), as one of the most prospective mobile applications, intends to provide richer experiences by annotating tags or virtual objects over the scene observed through camera embedded in a handheld device like smartphone or pad. In this paper, we analyzed the current status of the art of mobile AR and proposed a novel Points of Interest (POIs) data model based on ontology to provide context-aware information retrievals on lots of POIs data. Proposed ontology was expanded from the standard POIs data model of W3C POIs Working Group and established using OWL (Web Ontology Language) and Protege. We also proposed a context-aware mobile AR platform which can resolve three distinguished issues in current platforms : interoperability problem of POI tags, POIs data retrieval issue, and context-aware service issue.

Chatbot Design Method Using Hybrid Word Vector Expression Model Based on Real Telemarketing Data

  • Zhang, Jie;Zhang, Jianing;Ma, Shuhao;Yang, Jie;Gui, Guan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권4호
    • /
    • pp.1400-1418
    • /
    • 2020
  • In the development of commercial promotion, chatbot is known as one of significant skill by application of natural language processing (NLP). Conventional design methods are using bag-of-words model (BOW) alone based on Google database and other online corpus. For one thing, in the bag-of-words model, the vectors are Irrelevant to one another. Even though this method is friendly to discrete features, it is not conducive to the machine to understand continuous statements due to the loss of the connection between words in the encoded word vector. For other thing, existing methods are used to test in state-of-the-art online corpus but it is hard to apply in real applications such as telemarketing data. In this paper, we propose an improved chatbot design way using hybrid bag-of-words model and skip-gram model based on the real telemarketing data. Specifically, we first collect the real data in the telemarketing field and perform data cleaning and data classification on the constructed corpus. Second, the word representation is adopted hybrid bag-of-words model and skip-gram model. The skip-gram model maps synonyms in the vicinity of vector space. The correlation between words is expressed, so the amount of information contained in the word vector is increased, making up for the shortcomings caused by using bag-of-words model alone. Third, we use the term frequency-inverse document frequency (TF-IDF) weighting method to improve the weight of key words, then output the final word expression. At last, the answer is produced using hybrid retrieval model and generate model. The retrieval model can accurately answer questions in the field. The generate model can supplement the question of answering the open domain, in which the answer to the final reply is completed by long-short term memory (LSTM) training and prediction. Experimental results show which the hybrid word vector expression model can improve the accuracy of the response and the whole system can communicate with humans.

Ergodic Markov Model을 이용한 정보 검색 모델 (An Information Retrieval Model based on an Ergodic Markov Model)

  • 강인호;이여진;한영석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-62
    • /
    • 2001
  • 인터넷의 급속한 양적 증가로 인해 색인어 기반의 검색 방식만으로는 원하는 정보를 찾아 내기가 쉽지 않다. 색인어 기반의 검색 방식에서는 색인어로 나타나지 않는 특징을 이용할 수 없으며, 질적으로 균등한 검색 결과를 제시하지 못하기 때문이다. 따라서 사이트의 여러 가지 특성에 따라 계층적으로 분류해놓은 웹 디렉토리를 이용하거나, 관련 전문가들의 추천 리스트를 이용하여 검객하기도 한다. 본 연구에서는 기존의 색인어 기반의 검색 모델에 웹 디렉토리와 추천 문서 같은 문서간의 링크 정보를 결합할 수 있는 정보 검색 모델을 제시한다. 특정 질의어의 검색 결과로 얻어낸 문서와 그 문서와 연결된 문서 집합을 이용하여 네트워크를 구성한다. 이 네트워크에 검색기가 제시하는 순위와 유사도, 그리고 문서간의 링크 정도를 이용해서 확률값을 정해준다. 그리고 Ergodic Markov Model의 특성을 이용하여 색인어 정보와 링크 정보를 결합한다. 본 연구에서는 특정 문서가 질의어에 부합되는 정도를 사용자가 그 문서로 이동할 확률값으로 계산하는 방식을 보인다.

  • PDF

색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델 (Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering)

  • 이현구;김민경;김진태;김학수;이연수;최맹식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF