• 제목/요약/키워드: inverted file

검색결과 42건 처리시간 0.022초

정보검색을 위한 인버티드화일과 클러스터화일의 비교분석 (The Study of Inverted File and Clustered File in the Aspects of Information Retrieval Performance)

  • 서휘
    • 정보관리학회지
    • /
    • 제3권2호
    • /
    • pp.129-171
    • /
    • 1986
  • 본 논문은 파일 조직방법이 검색시스팀의 성능에 영향을 미친다는 가설하에 "대한기계학회논문집"을 대상으로 인버티드화일과 질문식을 이용한 클러스터화일을 조직하여 각 파일의 성능을 비교, 그 결과를 제시하였다. 각 파일의 조직은 금성 마이티 6020 컴퓨터를 사용하였으며 프로그래밍 언어는 PASCAL을 사용하였다.

  • PDF

문서의 동적 삽입 삭제를 위한 STEER 역파일 구조 (STEER Inverted File Structure for Dynamic Document Insertion/Deletion)

  • 김남일;박영찬;주종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.174-176
    • /
    • 1998
  • 역파일 구조(inverted file structure)는 검색 속도가 빠르기 때문에 정보검색 시스템의 색인정보 하부 저장구조로 널리 이용되지만 문서의 동적 삭제는 어려운 형태이다. 본 논문에서는 기존역파일 구조에 문서마다 색인어의 포스팅 레코드를 기록한 목록을 유지함으로써 문서의 동적 삭제가 용이하고, 위치정보를 포스팅 레코드에서 분리하여 위치 검색이 효율적인 역파일 구조를 설계한다. 설계된 역파일 구조는 STEER(Structured Entity Element Retrieval) 정보검색 시스템에서 구현되었다.

  • PDF

문자열 부분검색을 위한 색인기법의 설계 및 성능평가 (Design and Performance Evaluation of an Indexing Method for Partial String Searches)

  • 강승헌;유재수
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1458-1467
    • /
    • 1999
  • 신장해슁이나 B+-트리와 같은 기존의 색인구조들은 문자열의 부분검색을 지원하지 못하거나 부분검색에 제약점을 가지고 있다. 최근 웹 환경에서 동작하는 정보검색 엔진들이 사용하는 역파일의 빠른 검색성능을 가지면서 문자열 부분검색을 효율적으로 지원하는 색인기법을 제안한다. 제안된 색인기법은 기본적으로 역파일 구조이며, 2음절 단위의 패턴으로 색인을 구성함으로써 문자열 부분검색을 지원한다. 제안된 색인기법의 특성을 분석하기 위해 제안된 방법의 성능을 다양한 환경에서 실험을 통하여 비교하고 분석한다. 또한 성능평가를 위해 기존의 역파일 기법, 요약 파일 기법들과 제안하는 색인기법의 분석적 모델을 검색시간과 저장공간 측면에서 세시하고, 그 모델을 기반으로 그들의 성능을 비교한다. 분석적 비교모델을 통한 성능비교 결과, 제안된 부분검색을 위한 색인기법은 저장공간의 오버헤드는 크지만 기존 요약 파일 기법에 비해 검색성능을 상당히 향상시킨다.

  • PDF

Posting File을 이용한 구절 검색 방법 (Phrase search using posting file in Korean Information Retrieval System)

  • 박대원;박민식;박진희;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.384-386
    • /
    • 2000
  • Posting file은 문서 내의 색인어와 색인어의 위치 정보-문장번호, 어절 번호 등으로 구성한 문서별 색인어 역파일(inverted file)이다. 본 논문에서는 posting file을 구성하고 이를 정보검색시스템에 적용하여 색인어의 어절 거리 계산에 의해 구절 검색이 가능한 정보검색시스템을 소개한다. 또한 사용자 질의문과 가장 유사한 문장을 검색결과 대표문장으로 제시하여 사용자가 검색결과를 쉽게 확인할 수 있는 방법을 제시한다.

  • PDF

파일조직 방법에 따른 검색성능의 비교연구 (An Experimental Study on the Retrieval Performance of File Organization Methods)

  • 송미련
    • 정보관리학회지
    • /
    • 제3권1호
    • /
    • pp.17-39
    • /
    • 1986
  • 정보검색시스템에 대한 관심이 날로 증대하고 또 온라인 정보검색시스템의 발달로 이용자는 더욱 효과적이고 빠른 탐색을 기대하게 되었다. 여기서 중대한 문제의 하나가 파일조직방법의 선택이다. 본 논문에서는 파일조직방법이 검색성능에 영향을 미칠 것이라는 가설하에 여러가지 파일조직방법 충 도치파일과 클러스터파일을 선택하여 그에 따른 검색성능을 비교하였다.

  • PDF

대용량 데이터 색인에 적합한 역파일의 구현 (Implementation of the Inverted File for Indexing Large-volume Data)

  • 임성채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.909-912
    • /
    • 2008
  • 대용량 문서에 대한 키워드 검색을 위해 역파일(inverted-file) 색인 기법이 널리 쓰이고 있다. 역파일 색인 기법을 구현함에 있어 고려되어야 할 점은 키워드 검색 처리 시에 디스크 사용을 최소로 할 수 있는 방법이다. 크기가 작은 역파일이라면 디스크 I/O 사용도 작고 필요시 역파일을 메모리에 적재하여 둠으로써 디스크 사용을 크게 줄일 수 있다. 하지만, 웹 검색이나 규모가 큰 도서관 시스템에서와 같이 색인 데이터 크기가 매우 큰 경우 역파일을 읽는 디스크 비용이 급격히 증가할 수 있다. 본 논문에서는 매우 큰 크기의 역파일을 사용하는 검색 환경에서 디스크 사용을 최소로 할 수 있는 역파일 구조를 제안한다. 제안된 구조는 질의 처리 과정을 고려해 계층 구조로 설계되며 실제 상용 시스템에 적용되어 안정성 및 성능을 입증했다.

문헌정보학 학술지를 대상으로 한 온톨로지 구축에 관한 연구 (A Study on Constructing the Ontology of LIS Journal)

  • 노영희
    • 정보관리학회지
    • /
    • 제28권2호
    • /
    • pp.177-193
    • /
    • 2011
  • 본 연구에서는 학술지를 대상으로 온톨로지를 구축하고 그 성능을 평가하고자 하였으며, 트리플 구조로 구축된 온톨로지의 성능을 단순 키워드 검색엔진을 위한 도치색인 파일의 지식베이스와 그 성능을 비교하였다. 온톨로지 구축대상은 정보관리학회지 2007년부터 2009년까지의 3년간의 논문기사를 대상으로 하였으며, 구축방법은 온톨로지 구축도구인 프로티지를 이용하였다. 개념온톨로지는 수작업으로 구축하였고, 서지온톨로지는 자동으로 구축하여 각각 OWL 개념온톨로지와 OWL 서지온톨로지를 생성하였다. 성능비교를 위해 각각 제나 검색엔진과 루씬 검색엔진에 의해 검색된 결과를 비교하였다. 루씬은 정확률이 높게 나왔고, 제나는 재현률이 높게 나왔다.

HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램 (File Content Retrieval Program Using HashMap-based Trie)

  • 김성완;이우순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

집합 값을 갖는 애트리뷰트에 대한 수직적으로 분할된 블록 중첩 루프 조인 (Vertically Partitioned Block Nested Loop join on Set-Valued Attributes)

  • 황환규
    • 산업기술연구
    • /
    • 제28권B호
    • /
    • pp.209-214
    • /
    • 2008
  • Set-valued attributes appear in many applications to model complex objects occurring in the real world. One of the most important operations on set-valued attributes is the set join, because it provides a various method to express complex queries. Currently proposed set join algorithms are based on block nested loop join in which inverted files are partitioned horizontally into blocks. Evaluating these joins are expensive because they generate intermediate partial results severely and finally obtain the final results after merging partial results. In this paper, we present an efficient processing of set join algorithm. We propose a new set join algorithm that vertically partitions inverted files into blocks, where each block fits in memory, and performs block nested loop join without producing intermediate results. Our experiments show that the vertical bitmap nested set join algorithm outperforms previously proposed set join algorithms.

  • PDF

한글 텍스트 검색을 위한 요약 화일 기법에 관한 연구 (A Reasearch on Signature File Methods for Korean Text Retrieval)

  • 송병호;이석호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-237
    • /
    • 1991
  • 텍스트에 대한 내용 본위 검색 기법으로서 요약 화일(signature file) 기법은 역화일(inverted file)이 허용되지 않을 때 매우 유용하다. 그러나 한글은 영문과 달리 어절의 형성이 복잡하고 띄어쓰기 형태가 고정되지 않음에 따라 기존의 단어 위주 영문 본위 요약 화일 기법을 그대로 적용시킬 수 없다. 본 논문에서는 이를 위하여 띄어쓰기를 무시하고 중복된 2음절 패턴을 도출하여 요약 화일을 구성, 검색하는 기법을 제안한다. 이 기법은 일본어, 중국어 등 비슷한 문제를 가진 외국어에도 적용될 수 있다.

  • PDF