• 제목/요약/키워드: 검색 색인

검색결과 1,079건 처리시간 0.037초

오디세우스/parallel-OOSQL: 오디세우스 객체 관계형 데이터베이스 관리 시스템을 사용한 병렬 정보 검색 시스템 (ODYSSEUS/Parallel-OOSQL: A Parallel Information Retrieval System Using the Odysseus Object-Relational Database Management System)

  • 류재준;이재길;이민재;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.187-189
    • /
    • 2002
  • 인터넷의 성장과 함께 전자적인 형태로 표현되는 정보의 양이 급격하게 증가함에 따라, 문서를 병렬적으로 검색하는 병렬 정보 검색이 많은 양의 문서에 대한 빠른 검색을 지원하는 것에 있어 더욱 중요한 역활을 하고 있다. 병렬 정보 검색 시스템을 구현하기 위해서는 역 색인을 분활하고 분활된 역 색인을 병렬적으로 검색하는 것이 필요하다 역 색인을 분활하는 방법으로는 다음과 같은 두 가지 방법이 있다: 1) 문서 식별자를 기반으로 하는 분활 방법과 2) 키워드 식별자를 기반으로 하는 분활 방법. 그러나 각 방법은 단점들을 가지고 있다. 본 논문에서는 정보 검색 기능이 밀결합된 데이터베이스 관리 시스템인 오디세우스를 사용하여 병렬 정보 검색 시스템을 설계하고 구현한다. 첫째로, 기존의 역 색인 분할 방법을 분석하고 각 분말 방법의 단점들을 보완할 수 있는 혼합 분활 방법을 제안한다. 둘째로, 많은 양의 문서에 대해 성능 저하의 원인이 되는 대형 포스팅을 분할 하는 방법을 제안한다. 마지막으로 제안된 시스템의 유용성을 보이기 위해 실험을 수행한다. 예제 데이터베이스로서는 이백만 건의 웹 페이지를 사용한다. 실험 결과, 질의 저리 시간이 역 색인 분말의 블록의 개수에 근사하게 비례하여 줄어들고 시스템이 좋은 확장성을 가짐을 보인다.

  • PDF

키팩트 색인텀에 기반한 정보검색 시스템 (An Information Retrieval System Based on Keyfact Index Term)

  • 박의규;나동열;변성찬;정경택;박세영
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

문헌검색(文獻檢索)에 있어서 Chemical Abstracts와 CA Condensates의 비교(比較)

  • Robert, B.E.
    • 정보관리연구
    • /
    • 제9권1호
    • /
    • pp.21-25
    • /
    • 1976
  • 1975년(年) 3월(月), 4년반(年半) 동안의 Chemical Abstracts 색인(索引)과 온-라인이 가능(可能)한 CA Condensates를 비교(比較)하였다. 두가지 데이터 베이스를 함께 이용(利用)하여 검색(檢索)하는 방법(方法)이 가장 효율적(效率的)이지만 실예(實例)에서 보는 바와 같이 CA Condensates를 검색(檢索)하는 것이 보다 실용적(實用的)이다. System Development Corp 사(社) (SDC)에 설치(設置)되어 있는 온-라인 형태(形態)인 CHEMCON과 CHEM7071을 Chemical Abstracts 색인(索引)과 비교(比較)하였다. 대부분(大部分)의 Chemical Abstracts 이용자(理容者)들은 Chemical Abstracts 책자나 우가색인(累加索引)에는 친숙(親熟)하지만 CA Condensates는 아마도 그리 친숙(親熟)하지 못할 것이다. CA Condensates는 서지적 사항을 기계(機械)로 읽을 수 있는 형태(形態)로 되어 있고 Chemical Abstracts에 따라서 색인(索引)되므로 매주 발행되는 Chemical Abstracts 책자의 뒷 부분이 있는 색인(索引)과 같이 우리에게 가장 친숙(親熟)한 형태(形態)로 되어 있다. Chemical Abstracts가 현재(現在) 사용(使用)하고 있는 데이터 데이스이지만 본고(本稿)에서는 Index와 Condensates를 둘 다 데이터 베이스로 정의(定義)한다. Condensates가 미국(美國)의 Chemical Abstracts Service 기관으로부터 상업적(商業的)으로 이용(利用)할 수 있게 되자 여러 정보(情報)센터에서는 이용자(利用者)들의 프로 파일을 뱃취방식(方式)으로 처리(處理)하여 매주 나오는 자기(磁氣)테이프에서 최신정보(最新情報)를 검색(檢索)하여 제공(提供)하는 서어비스 (SDI)를 시작하였다. 어떤 정보(情報)센터들은 지나간 자기(磁氣)테이프들을 모아서 역시 뱃취방식(方式)으로 소급(遡及) 문헌검색(文獻檢索) 서어비스를 한다. 자기(磁氣)테이프를 직접 취급(取扱)하는 사람들을 제외(除外)하고는 대부분(大部分) Condensates를 아직 잘 모르고 있다. 소급(遡及) 문헌검색(文獻檢索)은 비용이 다소 비싸고 두서없이 이것 저것 문헌(文獻)을 검색(檢索)하는 방법(方法)은 실용적(實用的)이 못된다. 매주 나오는 색인(索引)에 대해서 두 개나 그 이상의 개념(槪念)이나 물질(物質)을 조합(組合)하여 검색(檢索)하는 방법(方法)은 어렵고 실용적(實用的)이 못된다. 오히려 주어진 용어(用語) 아래에 있는 모든 인용어(引用語)들을 보고 초록(抄錄)과의 관련성(關連性)을 결정(決定)하는 것이 때때로 더 쉽다. 상호(相互) 작용(作用)하는 온-라인 검색(檢索)을 위한 Condensates의 유용성(有用性)은 많은 변화를 가져 왔다. 필요(必要)한 문헌(文獻)만을 검색(檢索)해 보는 것이 이제 가능(可能)하고 어떤 항목(項目)에 대해서도 완전(完全)히 색인(索引)할 수 있게 되었다. 뱃취 시스팀으로는 검색(檢索)을 시작해서 그 결과(結果)를 받아 볼 때 까지 수시간(數時間)에서 며칠까지 걸리는 번거로운 시간차(時間差)를 이제는 보통 단 몇 분으로 줄일 수 있다. 그리고 뱃취 시스팀과는 달리 부정확하거나 불충분한 검색방법(檢索方法)은 즉시 고칠 수가 있다. 연속적인 뱃취 형태의 검색방법(檢索方法)에 비해서 순서(順序)없이 온-라인으로 검색(檢索)하는 방법(方法)이 분명(分明)하고 정확(正確)한 장점(長點)이 있다. CA Condensates를 자주 이용(移用)하게 되자 그의 진정한 가치(價値)에, 대해 논의(論義)가 있었다. CA Condensates의 색인방법(索引方法)은 CA Abstract 책자나 우가색인(累加索引)의 방법(方法)보다 확실히 덜 체계적(體系的)이고 철저(徹底)하지 못하다. 더우기 두 데이터 베이스는 중복(重複)것이 많으므로, 중복(重複)해서 검색(檢索)할 가치(價値)가 없는지를 결정(決定)해야 한다. 다른 몇 개의 데이터 베이스와 CA Condensates를 비교(比較)한 논문(論文)들이 여러 번 발표(發表)되어 왔는데 일반적(一般的)으로 CA Condensates는 하위(下位)의 데이터 베이스로 나타났다. Buckley는 Chemical Abstracts의 색인(索引)이 CA Condensates 보다 더 좋은 문헌 (데라마이신의 제법에 관해서)을 제공(提供)한 실례(實例)를 인용(引用)하였다. 죠오지대학(大學)의 Search Center는 CA Condensates가 CA Integrated Subject File 보다 기능(機能)이 못하다는 것을 알았다. CA Condensates의 다른 여러 가지 형태(形態)들을 또한 비교(比較)하였다. Michaels은 CA Condensates를 온-라인으로 검색(檢索)한 것과 매주 나오는 Chemical Abstracts 책자의 색인(索引)은 수작업(手作業)으로 검색(檢索)한 것을 비교(比較)한 논문(論文)을 발표(發表)하였다. 그리고 Prewitt는 온-라인으로 축적(蓄積)한 두 개의 상업용(商業用) CA Condensates를 비교(比較)하였다. Amoco Research Center에서도 CA Condensates와 Chemical Abstracts 색인(索引)의 검색결과(檢索結果)를 비교(比較)하고 CA Condensates의 장점(長點)과 색인(索引)의 장점(長點), 그리고 사실상(事實上) 서로 동등(同等)하다는 실례(實例)를 발견(發見)하였다. 1975년(年) 3월(月), 적어도 4년분(年分)의 CA Condensates와 색인(索引)(Vols 72-79, 1970-1973)을 비교(比較)하였다. 저자(著者)와 일반(一般) 주제(主題) 대한 검색(檢索)은 Vol 80 (Jan-June, 1974)을 사용(使用)하여 비교(比較)하였다. CA Condensates는 보통 세분화(細分化)된 복합물(複合物)을 검색(檢索)하는 데 불편(不便)하다. Buckly가 제시(提示)한 실례(實例)가 그 대표적(代表的)인 예(例)이다. 그러나, 다른 형태(形態)의 검색실예(檢索實例)(단체저자(團?著者), 특허수탁저(特許受託著), 개인저자(個人著者), 일반적(一般的)인/세분화(細分化)된 화합물(化合物) 그리고 반응종류(反應種類)로 실제적(實際的)인 검색(檢索)을 위한 CA Condensates의 이점(利點)을 예시(例示)하였다. 다음 실례(實例)에서 CHEMCON과 CHEM7071은 CA Condensates를 온-라인으로 입력(入力)시킨 것이다.

  • PDF

XML 문서의 다양한 구조 검색을 위한 효율적인 동적 색인 모델 (An Efficient Dynamic Indexing Model for Various Structure Retrievals of XML Documents)

  • 신승호;손충범;강형일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.48-60
    • /
    • 2004
  • 정보 표현의 기본 단위인 엘리먼트로 구성되는 XML 문서 내에서 동적으로 구조 변경이 이루어진다. 이때 XML 문서의 구조변경은 빠른 검색을 위해 기존의 색인 구조 정보의 변경 없이 효율적으로 처리되어야 한다. 이를 위해 본 논문에서는 XML 문서의 구조 변경 시 기존의 색인 구조에 효율적으로 수용될 수 있는 동적 색인 모델을 제안한다. 제안하는 동적 색인 모델은 다양한 구조 검색을 지원하기 위한 구조 정보 표현 방법과 효율적인 구조 검색을 지원하기 위한 동적 색인 구조로 구성된다. 제안하는 색인 기법이 기존의 동적 색인을 지원하는 기법보다 내용 색인, 구조 색인, 애트리뷰트 색인 측면에서 우수함을 성능 평가를 통해 보인다.

PDA를 이용한 한국어 자동 색인 시스템 (Korean Automatic Indexing System Using the PDA)

  • 박평구;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.375-378
    • /
    • 2000
  • 인터넷의 급속한 발달로 사용자는 자신의 질의에 적합한 검색결과를 빠르고 정확하게 보장하는 검색도구를 요구하게 되었다. 이러한 사용자의 요구는 검색도구의 성능향상에 필수적인 문서의 내용을 대표하는 색인어를 추출하는 색인 시스템에 대한 관심을 가지게 되었다. 기존의 한국어에서의 자동 색인 방법에는 어절 중심 색인법, 형태소 중심 색인법과 최근에 n-gram 중심 색인법 등이 주류를 이루어 왔다. 그러나 한국어에서 색인어를 추출하는 기존의 방법은 복합명사의 색인과 복잡한 문법적 지식이 필요하고 잘못된 색인어를 추출하는 등의 검색효율에 문제점을 가지고 있다. 본 논문에서는 PDA를 이용한 정형화된 한국어와 영어문장의 자동 색인 방법을 제안한다. 제안하는 방법은 별도의 사전지식이 필요하지 않고 단일 명사와 복합명사의 색인이 가능하며 인터넷으로의 확장과 다양한 언어로 확장성이 좋은 장점 등을 갖는다. 성능 평가로써 한국통신의 KTSET으로 MS사의 IIS를 웹 서버로 ASP를 이용하여 인터넷 환경에서 테스트를 통하여 한국어 뿐 아니라 영어문장의 정형화되고 이용이 간편한 자동색인 결과를 보여준다.

  • PDF

XML 데이타의 효율적인 검색을 위한 색인 모델에 관한 연구 (A Study on Indexing Technique for Efficient Search of XML Data)

  • 권국봉;홍동권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1399-1402
    • /
    • 2003
  • 본 연구에서는 XML 데이타의 효율적인 검색을 위한 색인 모델을 제안한다. 제안한 색인 모델은 문서 계층상의 모든 레벨에서 내용 기반 질의, 구조 기반 질의와 같은 다양한 질의를 지원하기 위한 구조정보와 이를 이용한 색인 구조로 구성된다. 그리고 구조 검색을 지원하기 위해 새로운 구조정보 표현 방법을 제안한다. 또한 제안된 색인 모델에 지속성을 부여하기 위해 색인 모델을 디스크에 저장하는 방법을 제안하고 간단한 질의의 처리 과정을 설명한다.

  • PDF

동적 색인 스토리지 및 통합 검색 서비스 개발 (Dynamic index storage and integrated searching service development)

  • 이왕우;이석형;최호섭;윤화묵;김종환;허윤영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.346-349
    • /
    • 2007
  • 본 논문은 웹뉴스 및 리뷰 검색 서비스를 위해 만든 통합 검색 시스템을 소개한다. 검색 서비스를 위한 데이터 수집을 위해서 특정 사이트에서 수집한 뉴스와 리뷰 문서로부터 제목, 날짜, 저자, 본문처럼 특정한 영역의 데이터만 추출하는 XSLTRobot을 만들었다. XSLTRobot은 원하는 부분의 데이터만 추출하기 위해 XSLT 기술을 이용한다. 여러가지 검색 데이터 형식에 적합한 통합 검색엔진과 통합 검색엔진의 스토리지 모듈중 하나인 동적 색인 저장소(Dynamic Index Storage)를 소개한다. 동적 색인 저장소는 뉴스 데이터처럼 색인의 업데이트가 빨라야 하는 환경에 이용된다. 본 논문에서 제시하는 동적 색인 저장소는 대량의 실시간 업데이트 문서를 처리하지 않기 때문에 검색성능에 초점을 맞춰서 설계하였다.

  • PDF

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

XML을 이용한 구조적 문서 생성 및 탐색을 위한 깊이중심분할 색인기법에 관한 연구 (A Study on the Depth-Oriented Decomposition Indexing Method for Creating and Searching Structured Documents Based-on XML)

  • 양옥렬;이용주
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1025-1042
    • /
    • 2002
  • 본 논문은 정보검색을 위한 용어들 간에 존재하는 관련정보인 시소러스를 이용하여 정보 검색 시스템의 검색 성능을 향상시키기 위한 구조적 문서를 생성하고 이를 검색하는 검색 기법에 대하여 연구하였다. 이를 위해 시소러스를 이용한 구조적 문서의 탐색을 위한 깊이중심분할 색인(DODI : Depth-Oriented Decomposition Index) 기법을 제안하였으며, 또한 시소러를 이용한 색인 기법으로서 효과적인 정보 검색이 가능하도록 검색 알고리즘을 통해 연관관계의 정보들에 대한 검색이 가능하도록 하였다. 또한 색인기법에 의해 생성된 구조적 문서는 OpenXML을 통해 데이터베이스 내에 저장되고, ForXML 메소드를 이용하여 재구성된 XML문서를 생성하도록 구조적 문서 저장 시스템을 구현하였다.

텍스트분할에 의한 색인방법 연구 (A Study on Indexing Method using Text Partition)

  • 강무영;이상구
    • 정보관리학회지
    • /
    • 제16권4호
    • /
    • pp.75-94
    • /
    • 1999
  • 색인은 데이터베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 컴퓨터의 발달로 전자정보가 점점 많아짐에 따라 데이터베이스에 저장해야할 문서가 대량화되고 있고, 이러한 대용량 문서를 색인하기 위해서는 많은 시스템 자원과 처리 시간을 필요로 한다. 따라서 본 논문에서는 대용량 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 개선된 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF