• 제목/요약/키워드: Document Retrieval

검색결과 450건 처리시간 0.034초

정보검색에서 부울연산자를 연산하는 식의 수학적 특성 (Mathematical Properties of the Formulas Evaluating Boolean Operators in Information Retrieval)

  • 이준호;이기호;조영화
    • 정보관리학회지
    • /
    • 제12권1호
    • /
    • pp.87-97
    • /
    • 1995
  • 부울 검색 시스템은 구현이 용이하고 빠를 검색 시간을 제공하기 때문에, 오늘날 정보 검색 분야에서 가장 널리 사용되고 있다. 그러나 순수한 부울 검색 시스템은 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정도에 따라 정렬 할 수 없다. 부울 검색 시스템에 순위 결정 기능을 부여하기 위하여 퍼지 집합, Waller-Kraft, Paice, P-Norm, Infinite-One과 같은 확장된 부울 모델들이 개발되어 왔다. 이들 모델에서 부울 연산자 AND와 OR에 대한 계산식은 순위 결정의 성능을 결정하는 중요한 요소이다. 본 논문에서는 부울 연산자 계산식의 수학적 특성을 제시하고, 이들이 검색효과에 미치는 영향을 분석한다. 분석 결과는 P-Norm 모델이 높은 검색 효과를 얻기에 가장 적합함을 보여준다.

  • PDF

이미지데이터 활용을 위한 문서인식시스템 연구 및 개발 (Research and Development of Document Recognition System for Utilizing Image Data)

  • 곽희규
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.125-138
    • /
    • 2010
  • 본 연구는 공공기관이 소장한 이미지데이터의 검색 및 열람 등의 활용성을 높이기 위한 전문검색서비스 구현 시 필수적인 문서인식시스템의 고도화를 목표로 한다. 주요한 연구방향은 공공기관이 소장하고 있는 데이터를 사전에 분석하여 문서이미지 전처리 및 문서구조분석 기술을 개발하고, 문서인식 과정에서 활용하기 위한 이미지내용DB, 문자모델DB, 용어DB로 구성되는 특화된 지식베이스를 구축하는 것이다. 또한, 지식베이스 관리도구를 개발하여 향후 다양한 형태의 문서이미지로의 확장을 가능하게 한다. 최근 본 연구는 국가기록원에서 소장하고 있는 이미지데이터에 적합한 문서구조분석 라이브러리와 특화된 지식베이스를 결합한 문서인식 프로토타입 시스템 개발을 완료했다. 향후 본 연구의 결과는 방대한 소장자료의 검색 및 활용을 극대화할 전문검색시스템 연계를 위한 성능평가 및 테스트베드 구축에 활용될 것이다.

MIRAGE-III 디지털도서관에서 가상문서 검색 서버의 설계 및 구현 (Design and Implementation of a Retrieval Server for Virtual Documents in the MIRAGE-III Digital Library)

  • 이용배;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권2호
    • /
    • pp.219-230
    • /
    • 2002
  • 인터넷이용의 급증에 따라 지식정보화사회 전반의 작업들이 분산환경의 디지털도서관에 저장되어 있는 멀티미디어 컨텐츠를 쉽고 신속하게 찾아 새로운 정보를 생성 또는 공유하는 작업을 통해 이루어진다. 이를 위해 핵심적으로 연구해야 할 부분은 원격지에 흩어져 있는 정보를 효과적으로 연결시켜서 의미있고 일관된 형태로 보여지도록 하는 것이다. 이 목적을 달성하기 위해 디지털도서관에서는 물리적으로 홑어져 있는 정보들이 논리적으로 일관되게 표현될 수 있는 가상공간을 제공해야 하며 가상공간에서 정보가 표현되었을 때 사용자가 원하는 정보를 신속하게 수집하여 제시할 수 있어야 한다. 가상문서(Virtual Document)란 특정 저장장소에 저장되어 존재하던 물리적 문서(Physical Document)들을 대상으로 사용자에게 필요한 일부분 또는 전체를 동적으로 연결하여 통합한 문서를 의미한다. MIRAGE-III 디지털도서관에서는 일반 텍스트문서와 XML로 기술된 구조화된 가상문서를 대상으로 내용기반 검색을 수행한다. 이 시스템에서는 XML 문서구조를 기반으로 부분문서의 검색이 가능하며 문서의 속성 및 계층구조에 대한 검색과 문서간의 링크관계를 이용한 검색도 가능하다. 본 논문에서는 MIRAGE-III 디지털도서관에서의 질의어처리기 및 검색기를 설계하고 구현한 방법론에 대하여 기술한다.

인덱스 그래프 : 동적 문서 데이터베이스를 위한 IR 인덱스 구조 (Index Graph : An IR Index Structure for Dynamic Document Database)

  • 박병권
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제10권1호
    • /
    • pp.257-278
    • /
    • 2001
  • An IR(information retrieval) index for dynamic document databases where insertion, deletion, and update of documents happen frequently should be frequently updated. As the conventional structure of IR index is, however, focused on the information retrieval purpose, its structure is inefficient to handle dynamic update of it. In this paper, we propose a new structure for IR Index, we call it Index Graph, which is organized by connecting multiple indexes into a graph structure. By analysis and experiment, we prove the Index Graph is superior to the conventional structure of IR index in the performance of insertion, deletion, and update of documents as well as the performance of information retrieval.

  • PDF

구조 기반 검색을 위한 색인 구조에 대한 분석 (Analysis of Indexing Schemes for Structure-Based Retrieval)

  • 김영자;김현주;배종민
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.601-616
    • /
    • 2004
  • 구조적 문서들에 대한 검색시스템은 구조 기반 검색 질의를 지원하여 다양한 수준의 검색 기능을 제공한다. 완전한 구조 기반 질의를 처리하기 위해서는 구조적 문서가 가지는 엘리먼트 간의 구조적 포함관계나 순서에 관한 정보를 유지되어야 한다. 본 논문에서는 엘리먼트와 엘리먼트 사이의 구조적 상관관계와 엘리먼트의 발생순서에 관련된 질의 등 여러 유형의 순수 구조 질의를 처리할 수 있는 네 가지 색인구조를 제시하고 그 성능을 평가한다. 제안된 색인 알고리즘은 전체 문서 인스턴스 트리 개념에 바탕을 두고 있다.

  • PDF

XML 링크정보를 이용한 정보 검색 색인 기법의 설계 (Design of an Information Retrieval Indexing Method using XML Links)

  • 김은정;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2020-2027
    • /
    • 2000
  • The hypertext document is used for information exchange in the Web environments. Its structure is considered as having graph structures with links, which makes nonlinear processing of documents possible. This paper proposes an indexing method for information retrieval system using XML links. We define new attributes that control links of a remote document and assign an unique identifier for the attribute of each link. Each identifier has a different weight according to its occurrence position that is local or remote documents. We index a word not only from a local document but a remote document based on the given weight. Experimental results show that the proposed method outperforms conventional retrieval systems that ignore links.

  • PDF

모바일 기기를 위한 정보검색 시스템 (Information Retrieval System for Mobile Devices)

  • 김재훈;김형철
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제33권4호
    • /
    • pp.569-577
    • /
    • 2009
  • Mobile information retrieval is an evolving branch of information retrieval that is centered on mobile and ubiquitous environments. In general, mobile devices are characterized by lightweight, low power, small memory, small display, limited input/output, low bandwidth, and so on. Some of these characteristics make it impossible to apply general information retrieval to mobile environments without any modification. In order to relieve this problem, we design and implement an information retrieval system for mobile devices like wireless phones, PDA and handheld devices. We use document summarization techniques to alleviate the limitation of small display and user profiles to retrieve the most proper documents for each individual user for personalized search. Futhermore we use meta-search to lighten some burdens visiting several portal sites. In this paper, we have implemented and demonstrated the proposed mobile information retrieval system on the domain of travel and received good evaluation from users subjectively.

BRS/Search 시스템을 이용한 XML 문서 검색시스템 설계 및 구현 (Design and Implementation of a XML Document Retrieval System Using the BRS/Search System)

  • 손충범;이병엽;유재수
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.51-63
    • /
    • 2001
  • 본 논문에서는 상용 검색 엔진인 BRS/Search 시스템을 이용하여 XML문서에 대한 구조 기반 검색이 가능하도록 XML문서 검색시스템을 설계하고 구현한다. 본 논문에서 구현한 시스템은 XML문서의 논리적인 구조를 Unix 파일시스템의 디렉토리 구조로 표현한다. 이렇게 표현된 XML 문서를 BRS/Search 시스템의 데이터베이스에 정보의 손실 없이 저장하기 위해 데이터베이스 스키마를 정의하고 내용 검색뿐만 아니라, 구조 검색, 혼합 검색, 애트리뷰트 검색이 가능하도록 BRS/search 시스템에 부가적으로 필요한 ETID 추출기, 구조정보 추출기, 저장 관리기, 질의 처리기를 설계하고 구현한다.

  • PDF

검색 성능 향상을 위한 약품 온톨로지 기반 연관 피드백 (Relevance Feedback based on Medicine Ontology for Retrieval Performance Improvement)

  • 임수연
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.41-56
    • /
    • 2005
  • 기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드 기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

전공분류표, 사용자 프로파일, LSI를 이용한 검색 모델 (Retrieval Model using Subject Classification Table, User Profile, and LSI)

  • 우선미
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.789-796
    • /
    • 2005
  • 현재 대부분의 도서관 정보검색 시스템들은 키워드 정합매칭(exacting matching) 방법으로 검색 서비스를 제공하고 있으므로, 검색 결과의 양이 방대하고 비적합한 결과가 많이 포함되어 있다. 따라서 본 논문에서는 키워드기반 검색 엔진의 단점을 보완하고 현재 도서관 검색 환경을 고려하여 보다 적합한 결과를 사용자에게 신속하게 제공하기 위하여 전공분류표와 사용자 프로파일을 이용한 검색 모델 SULRM(Retrieval Model using Subject Classification Table, User Profile & LSI)을 제안한다. SULRM은 키워드 검색 결과로 얻은 자료들을 분류된 자료의 경우와 미분류된 자료의 경우로 나누어, 분류된 자료의 경우에는 전공분류표를 생성하여 자료 필터링을 수행하고, 미분류된 자료의 경우에는 사용자 프로파일과 LSI(Latent Semantic Indexing)을 이용하여 자료의 순위를 결정해서 사용자에게 제시한다. 실험평가는 우리 대학의 디지털 도서관을 실험환경으로 하여 필터링 방법, 사용자 프로파일 갱신 방법, 그리고 문서순위결정 방법의 성능을 측정한다.