• 제목/요약/키워드: Language-Based Retrieval Model

검색결과 71건 처리시간 0.029초

Language Modeling Approaches to Information Retrieval

  • Banerjee, Protima;Han, Hyo-Il
    • Journal of Computing Science and Engineering
    • /
    • 제3권3호
    • /
    • pp.143-164
    • /
    • 2009
  • This article surveys recent research in the area of language modeling (sometimes called statistical language modeling) approaches to information retrieval. Language modeling is a formal probabilistic retrieval framework with roots in speech recognition and natural language processing. The underlying assumption of language modeling is that human language generation is a random process; the goal is to model that process via a generative statistical model. In this article, we discuss current research in the application of language modeling to information retrieval, the role of semantics in the language modeling framework, cluster-based language models, use of language modeling for XML retrieval and future trends.

Dependency Structure Applied to Language Modeling for Information Retrieval

  • Lee, Chang-Ki;Lee, Gary Geun-Bae;Jang, Myung-Gil
    • ETRI Journal
    • /
    • 제28권3호
    • /
    • pp.337-346
    • /
    • 2006
  • In this paper, we propose a new language model, namely, a dependency structure language model, for information retrieval to compensate for the weaknesses of unigram and bigram language models. The dependency structure language model is based on the first-order dependency model and the dependency parse tree generated by a linguistic parser. So, long-distance dependencies can be naturally captured by the dependency structure language model. We carried out extensive experiments to verify the proposed model, where the dependency structure model gives a better performance than recently proposed language models and the Okapi BM25 method, and the dependency structure is more effective than unigram and bigram in language modeling for information retrieval.

  • PDF

단말노드 언어모델 기반의 XML문서검색에서 구조 제한의 유용성에 관한 실험적 연구 (A Experimental Study on the Usefulness of Structure Hints in the Leaf Node Language Model-Based XML Document Retrieval)

  • 정영미
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.209-226
    • /
    • 2007
  • XML웹 문서 포맷은 문헌 내에 내용과 의미있는 논리적인 구조 정보를 포함할 수 있어, 검색에서 문서의 내용뿐만 아니라 구조로 접근하는 것을 제공한다. 그래서 본 연구의 목적은XML검색에 있어 내용 검색에 추가적인 요소로 사용된 구조적인 제한이 얼마나 유용한지를 실험하기 위해 내용만으로 검색한 결과와 내용과 구조적인 제한을 가지고 검색한 결과간의 성능을 비교하였다. 이 실험은 자체 개발된 단말노드 언어모델기반의 XML 검색시스템을 사용하였고 INEX 2005의 ad-hoc track에 참여하여 모든 실험방법과 INEX 2005의 실험 문헌 집단을 사용하였다.

엘리먼트 기반 XML 문서검색의 성능에 관한 실험적 연구 (An Experimental Study on the Performance of Element-based XML Document Retrieval)

  • 윤소영;문성빈
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.201-219
    • /
    • 2006
  • 이 연구에서는 가장 적합한 엘리먼트 기반 XML 문서검색 기법을 제시하기 위해 언어모델 검색 접근법으로 다이버전스 기법, 보정 기법 그리고 계층적 언어모델의 검색성능을 평가하는 실험을 수행하였다. 실험 결과, 가장 효율적인 검색 접근법으로 문서의 구조정보를 적용한 계층적 언어모델 검색을 제안하였다. 특히, 계층적 언어모델은 실제 검색에서 중요성을 가지는 검색순위 상위에서 뛰어난 성능을 보였다.

어휘 번역확률과 질의개념연관도를 반영한 검색 모델 (Retrieval Model Based on Word Translation Probabilities and the Degree of Association of Query Concept)

  • 김준길;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.183-188
    • /
    • 2012
  • 정보 검색에서 성능 저하의 주요 요인은 사용자의 질의와 검색 문서 사이에서의 어휘 불일치 때문이다. 어휘 불일치 문제를 해결하기 위해 본 논문에서는 어휘 번역확률을 이용한 번역기반 언어모델에 질의개념연관도를 반영한 검색 모델을 제안한다. 어휘관계 정보를 획득하기 위하여 문장-다음문장 쌍을 이용하여 어휘 번역확률을 계산하였다. 제안모델의 유효성을 검증하기 위해 TREC AP 컬렉션에 대해 실험하였다. 실험결과에서 제안모델이 언어모델에 비해 아주 우수한 성능향상을 보였고, 번역기반 언어모델에 비해서도 높은 성능을 나타냈다.

IFC 속성 데이터기반의 질의어 개발을 통한 모델 정보 검색 및 재생성 방안 (IFC Model Data Retrieval and Regeneration Method through Property Set-based Query Language)

  • 이상호;박상일;장영훈;최규원
    • 한국산학기술학회논문지
    • /
    • 제18권2호
    • /
    • pp.38-46
    • /
    • 2017
  • 본 연구에서는 Industry Foundation Classes (IFC)를 기반으로 토목 시설물 정보 모델을 생성하는 경우에 발생할 수 있는 정보 검색 및 모델 재생성의 어려운 점을 보완할 수 있는 질의어를 개발하였다. 이를 위하여 첫번째로, IFC에서 구조물을 나타내기 위한 요소와 속성을 다루는 부분, 그리고 이들을 연결해주는 요소의 관계를 분석하고 이에 따른 흐름을 분석하였다. 이를 통해 최종 사용자의 입장에서 IFC 파일 내에서의 속성, 객체 및 그에 따르는 연결에 대한 접근 및 파악이 매우 힘들 수 있음을 확인하였다. 둘째, 기존 Building Information Model Query Language (BimQL)의 방법을 참고하여 IfcPropertySet 중심의 질의 방식을 제시하고 이를 적용할 수 있는 독립 모듈을 개발하였다. 마지막으로 제시한 방법을 철도의 궤도 및 침목에 적용하여 사용자가 의도한 대로 효과적인 정보 추출 및 모델 재생성이 가능함을 확인하였다. 이러한 접근방법의 장점은 IFC 파일만을 대상으로 효과적인 정보의 검색이 가능하다는 점으로, 정보의 상호운용성의 이점을 극대화할 수 있다.

비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템 (Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval)

  • 윤미희;윤용익;김교정
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2031-2041
    • /
    • 1999
  • 본 논문에서는 비정형, 대용량의 비디오데이터의 특징기반 검색과 주석기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의를 지원하는 통합비디오정보시스템(Hybrid Video Information System : HVIS)을 제안한다. HVIS는 메타데이터 모델링을 위해 한편의 비디오를 비디오 다큐먼트, 시퀸스, 장면, 객체로 나누고 물리적인 비디오스트림을 위한 원시데이터계층(raw_data layer)과 주석기반 검색, 특징기반 검색, 유사성 검색을 지원하기 위한 메타데이터계층(meta_data layer)의 두 개의 계층을 가진 통합 계층지향 메타데이터모델(Two layered Hybrid Object-oriented Metadata Model : THOMM)과 이 모델을 기반으로 주석기반 질의, 특징기반 질의, 유사질의가 가능한 비디오질의언어 (Video Query Language)와 질의를 처리하기 위한 비디오질의처리기 (Video Query Processor : VQP)와 질의처리알고리즘을 제안한다. 특히 유사한 장면, 객체를 찾는 유사질의시 사용자의 관심을 고려한 유사성 정도를 나타내는 식을 제시한다. 제안된 시스템은 Visual C++, ActiveX와 ORACLE를 이용하여 구현되었다.

  • PDF

효율적 구조 질의를 지원하는 바다-IV/XML 질의처리기의 설계 및 구현 (Design and Implementation of BADA-IV/XML Query Processor Supporting Efficient Structure Querying)

  • 이명철;김상균;손덕주;김명준;이규철
    • 정보기술과데이타베이스저널
    • /
    • 제7권2호
    • /
    • pp.17-32
    • /
    • 2000
  • As XML emerging as the Internet electronic document language standard of the next generation, the number of XML documents which contain vast amount of Information is increasing substantially through the transformation of existing documents to XML documents or the appearance of new XML documents. Consequently, XML document retrieval system becomes extremely essential for searching through a large quantity of XML documents that are storied in and managed by DBMS. In this paper we describe the design and implementation of BADA-IV/XML query processor that supports content-based, structure-based and attribute-based retrieval. We design XML query language based upon XQL (XML Query Language) of W3C and tightly-coupled with OQL (a query language for object-oriented database). XML document is stored and maintained in BADA-IV, which is an object-oriented database management system developed by ETRI (Electronics and Telecommunications Research Institute) The storage data model is based on DOM (Document Object Model), therefore the retrieval of XML documents is executed basically using DOM tree traversal. We improve the search performance using Node ID which represents node's hierarchy information in an XML document. Assuming that DOW tree is a complete k-ary tree, we show that Node ID technique is superior to DOM tree traversal from the viewpoint of node fetch counts.

  • PDF

Topic Level Disambiguation for Weak Queries

  • Zhang, Hui;Yang, Kiduk;Jacob, Elin
    • Journal of Information Science Theory and Practice
    • /
    • 제1권3호
    • /
    • pp.33-46
    • /
    • 2013
  • Despite limited success, today's information retrieval (IR) systems are not intelligent or reliable. IR systems return poor search results when users formulate their information needs into incomplete or ambiguous queries (i.e., weak queries). Therefore, one of the main challenges in modern IR research is to provide consistent results across all queries by improving the performance on weak queries. However, existing IR approaches such as query expansion are not overly effective because they make little effort to analyze and exploit the meanings of the queries. Furthermore, word sense disambiguation approaches, which rely on textual context, are ineffective against weak queries that are typically short. Motivated by the demand for a robust IR system that can consistently provide highly accurate results, the proposed study implemented a novel topic detection that leveraged both the language model and structural knowledge of Wikipedia and systematically evaluated the effect of query disambiguation and topic-based retrieval approaches on TREC collections. The results not only confirm the effectiveness of the proposed topic detection and topic-based retrieval approaches but also demonstrate that query disambiguation does not improve IR as expected.

학술정보검색을 위한 국내 대학생의 외국어 탐색문 활용에 관한 연구 (A Study on the Korean University Students' Usage of Foreign Language Queries in Scholarly Information Retrieval)

  • 이보은;이지연
    • 정보관리학회지
    • /
    • 제36권1호
    • /
    • pp.95-116
    • /
    • 2019
  • 본 연구에서는 학술정보검색에 있어 국내 대학생과 대학원생들이 외국어 탐색문을 어떻게 활용하는지, 그리고 이용자의 특성에 따라 외국어 탐색문의 활용도에 차이가 나타나는지 파악하고자 하였다. 연구 모형은 Ellis의 정보탐색 과정 모형을 바탕으로 설계되었으며, 실험, 인터뷰, 통계분석 등 양적 질적인 연구방법을 모두 활용하였다. 연구결과, 학술정보검색의 각 단계에서 국문 검색 전략과는 다른 다양한 외국어 검색 전략들이 발견되었고, 이러한 검색 전략들은 특히 이용자의 전공분야와 학력에 따라 차이를 보이는 것으로 파악되었다. 특히 인문 사회과학분야 피실험자들이 과학기술분야 피실험자들에 비해 외국어 탐색문을 선정하는 데 큰 어려움을 겪으며, 이에 따라 외국어를 활용한 검색을 선호하지 않는 점을 확인하였다. 또한 외국어 학술정보검색에서 인용정보나 발행지 정보 등 본문 이외의 정보들에 대한 의존도가 높아지는 모습을 보였다. 결과적으로 이용자의 특성에 따라 학술정보검색 과정에 외국어를 활용하는 비중이나 느끼는 어려움의 정도에 차이가 존재한다는 점을 파악할 수 있었으며, 향후 대학도서관은 이러한 이용자의 특성에 맞추어 이용자교육이나 도서관 서비스를 제공할 수 있을 것이다.