• 제목/요약/키워드: 검색성능

검색결과 2,436건 처리시간 0.027초

가중치에 따른 질의확장의 검색효율성 (Retrieval Effectiveness of Query Expansion depending on Term Weights)

  • 최성환
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.259-264
    • /
    • 2002
  • 기존의 질의확장 혹은 적합성 피드백 연구에서 코사인 정규화를 사용하여 검색성능을 향상시킨 연구들이 많다. 본 논문에서 실험한 결과를 근거로 하였을 때 이는 낮은 검색성능을 보였던 것이 검색공간의 확장으로 성능이 크게 향상되었을 가능성이 있다. 실험결과 가중치 유사도 모델간의 커다란 차이는 보이지 않고 코사인정규화 가중치 알고리즘에서 상당한 성능향상이 있었다. 그러나 기존의 코사인정규화 가중치 알고리즘을 이용한 전역적 질의확장의 경우 성능 향상률은 높으나 원질의어를 이용하여 가장 좋은 성능을 보였던 가중치 알고리즘들의 검색성능과 비교하면 오히려 낮은 성능을 보였다.

  • PDF

용어가중치 결합이 검색 효율성에 미치는 영향 연구 (The Impact of Combining Term Wights on Retrieval Effectiveness)

  • 최성환;정영미
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.481-483
    • /
    • 2002
  • 본 논문에서는 데이터 결합 영역에서 문서값을 정규화 하는 기법과 결합함수에 따라 용어가중치 결합이 검색성능에 어떤 영향을 미치는가를 분석하였으며, 특히 용어가중치 결합이 실질적으로 효율적인가를 성능 향상률 측면과 검색시스템의 효율성 측면에서 검증하고, 성능이 향상된 용어가중치 결합의 특징을 분석하였다. 실헙결과 대부분의 장어가중치 결합은 문서값 정규화 기법과 실험집단에 관계없이 높은 성능 향상률을 보이지 않았다. 특히 단일가중치고 높은 검색성능을 보였던 상위 가중치 알고리즘들은 다른 가중치 알고리즘과 결합할 경우 두드러진 성능 향상률을 보이지 않았다. 검색시스템의 효율성 측면에서 용어가중치 결합을 평가한 결과 문헌 내 단어빈도를 최대단어 빈도로 정규화한 가중치 알고리즘이 코사인 정규화 기법을 적용한 가중치 알고리즘들과 결합될 때 5개 실험집안에서 최적 단일가중치 보다 2% 이상 높은 성능을 보였다. 이는 서로 다른 특성을 지니는 용어가중치 알고리즘들이 장단점을 보완하여 검색성능을 향상시킨 수 있다는 것을 의미한다. 그러나 용어가중치 결합의 효율성은 컬렉션과 가중치 알고리즘의 특성에 의존적이었으며, 비록 각 용어가중치 결합의 성능이 높게 나타날지라도 최적의 성능을 보인 달일가중치와 비교하면 그 성능 차이가 미미하거나 낮아서 대부분의 용어가중치 결합이 실질적으로 효과적이지 못하였다.

  • PDF

WWW 탐색도구의 검색성능에 관한 실험적 연구 (An Experimental Study on Retrieval Performance of WWW Search Tools)

  • 이은주;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1997년도 제4회 학술대회 논문집
    • /
    • pp.59-62
    • /
    • 1997
  • 본 연구는 WWW 탐색도구의 검색성능을 평가하고, 또 검색성능에 영향을 미치는 요인들을 밝혀내기 위하여 수행되었다. 탐색도구의 데이터베이스 구축방식과 색인기법, 탐색기법, 이용자 인터페이스에 관련된 현황분석을 토대로 탐식도구의 검색성능에 영향을 미치는 요인들을 알아보기 위하여 검색실험을 수행하였다. 실험결과의 분석은 각 탐색도구의 검색효율과 검색결과의 중복도 및 유사도, 검색결과의 순위 및 적합성 순위부여 알고리즘. 웹 문서의 수집기법, 탐색도구의 최신성을 기준으로 이루어졌다.

  • PDF

데이터 결합이 웹 문서 검색성능에 미치는 영향 연구 (A Study on the Effect of Data Fusion on the Retrieval Effectiveness of Web Documents)

  • 박옥화;정영미
    • 정보관리연구
    • /
    • 제38권1호
    • /
    • pp.1-19
    • /
    • 2007
  • 이 연구에서는 최근 검색성능을 향상시키기 위한 전략으로 사용되는 데이터 결합기법을 웹 문서 검색에 적용하고, 실험을 통해 문서표현 방법의 결합이 검색성능에 미치는 영향을 분석하였다. 문서 표현 방법으로는 내용기반 표현, 링크기반 표현,URL 등을 선정하고, 단일 표현 방법에 의한 검색결과와 표현방법의 결합을 통한 검색결과를 비교하였다. 분석결과 다른 문서표현 방법의 결합이 웹 문서의 검색성능을 향상시키지는 못하는 것으로 나타났다.

질의 추론을 통한 온톨로지기반 시맨틱 검색 시스템의 성능 향상 (Performance Enhancement of A Ontology-based Semantic Search System with Query Inference)

  • 하상범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.157-159
    • /
    • 2004
  • 시맨틱 웹 기술을 활용한 시맨틱 검색은 문서의 의미를 온톨로지의 메타데이터로 생성하여 이를 바탕으로 검색을 수행하게 된다. 이와같은 온톨로지 기반의 시맨틱 검색은 논리를 바탕으로 추론을 적용할 수 있다. 본 논문에서는 온톨로지 기반의 추론을 적용한 시맨틱 검색 시스템을 언급하고 시맨틱 검색 시스템에서의 성능향상을 위해 추론엔진의 작업메모리 영역의 부하를 줄여 기존의 시스템보다 빠른 성능의 시맨틱 검색 시스템을 제안한다. 본 논문에서 시맨틱 검색 시스템의 성능향상을 위한 방법론으로는 다음과 같다 첫째, 추론엔진이 검색 도메인내의 전체 메타데이터를 가지고 추론을 수행하지 않고 메타데이터의 온톨로지부분 만을 사용하여 사용자가 원하는 질의문을 추론하여 검색에 사용하게 한다. 둘째, 시맨틱 검색 방법에서 Dirtectly 매칭 검색과 시맨틱 추론검색을 병행하여 수행하게 한다. 이를 위해 본 논문에서는 메타데이터의 온톨로지부분과 인스턴스부분을 분리하는 단계와 분리된 온톨로지부분에서 사용자가 원하는 질의를 추론하는 단계, 추론된 질의문을 검색시스템에서 매칭하는 단계를 수행하게 된다. 이러한 방법은 메타데이터의 양이 증가하여도 온톨로지부분은 증가하지 않으므로 추론엔진에서 전 방향 추론단계의 수행시간을 단축과 추론엔진의 호출 횟수를 단축시키는 결과를 가져온다.

  • PDF

퍼지 K-Nearest Neighbor에 의한 정보검색시스템의 성능 향상 (Performance Improvement of Information Retrieval System using Fuzzy K-Nearest Neighbor)

  • 현우석
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.367-369
    • /
    • 2005
  • 현대인들이 계속 쏟아지는 정보로부터 자신에게 필요한 정보만을 제한된 시간 안에 검색하는 일은 쉬운 일이 아니다. 컴퓨터를 이용하여 제한된 시간 내에 원하는 정보를 검색하고자 하는 정보검색 분야에서는 성능을 향상시키기 위한 연구가 활발히 진행되어 오고 있다. 본 논문에서는 정보검색 시스템의 성능을 향상시키고자 퍼지 K-Nearest Neighbor에 의한 정보검색시스템(IRS-FKNN: Information Retrieval System using Fuzzy K-Nearest Neighbor)을 제안한다. 제안하는 시스템은 기존의 시스템과 비교했을 때 검색결과의 신뢰성을 높이게 되어 시스템의 성능을 향상시키게 되었다.

  • PDF

파일조직 방법에 따른 검색성능의 비교연구 (An Experimental Study on the Retrieval Performance of File Organization Methods)

  • 송미련
    • 정보관리학회지
    • /
    • 제3권1호
    • /
    • pp.17-39
    • /
    • 1986
  • 정보검색시스템에 대한 관심이 날로 증대하고 또 온라인 정보검색시스템의 발달로 이용자는 더욱 효과적이고 빠른 탐색을 기대하게 되었다. 여기서 중대한 문제의 하나가 파일조직방법의 선택이다. 본 논문에서는 파일조직방법이 검색성능에 영향을 미칠 것이라는 가설하에 여러가지 파일조직방법 충 도치파일과 클러스터파일을 선택하여 그에 따른 검색성능을 비교하였다.

  • PDF

확률적 정보 검색 모델에서의 유사 적합성 피드백 실험 (Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model)

  • 조봉현;이창기;안주희;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

자원 방향성 개선을 위한 적응적 P2P 검색 알고리즘 (An Adaptive Peer-to-Peer Search Algorithm to Reform Resource-Directionality)

  • 김분희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.573-576
    • /
    • 2006
  • 기존의 인폼드 검색 모델에서 자원 보유 피어의 검색 결과는 검색 과정에서 선택된 피어들 각각의 라우팅 결정 정보로 저장되는데, 자원 적중률에 따라 다음 피어를 선택할 때 주요 결정 요인으로 작용한다. 이러한 라우팅 결정 정보를 이용하여 검색 트래픽과 검색 성공률 등의 측면에서 기존의 Random Walks 등에 비해 효과적인 성능 평가 결과를 보인 LTO(Leveled The Orienteering) 검색 알고리즘은 검색 과정에서의 라우팅 경로가 편중되어 있어 해당 노드들에 검색 부하 집중 경향을 보인다. 이에 본 논문에서는 검색 적중 빈도에 다라 LTO 검색 알고리즘이 검색 과정상에서 라우트 대상 노드들의 성능을 고려한 적응적 P2P 검색 알고리즘으로 확장 제안한다. 제안한 알고리즘의 성능 평가 결과 노드들의 검색 부하 집중률과 자원 검색 노드의 검색 성공률 측면에서 적절한 타협점에서 동작함을 확인하였다.

  • PDF

BM25 기반 고난도 부정 지식 검색을 통한 오픈 도메인 지식 기반 한국어 대화의 지식 검색 모듈 성능 향상 (Improvement of Knowledge Retriever Performance of Open-domain Knowledge-Grounded Korean Dialogue through BM25-based Hard Negative Knowledge Retrieval)

  • 문선아;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2022
  • 최근 자연어처리 연구로 지식 기반 대화에서 대화 내용에 자유로운 주제와 다양한 지식을 포함하는 연구가 활발히 이루어지고 있다. 지식 기반 대화는 대화 내용이 주어질 때 특정 지식 정보를 포함하여 이어질 응답을 생성한다. 이때 대화에 필요한 지식이 검색 가능하여 선택에 제약이 없는 오픈 도메인(Open-domain) 지식 기반 대화가 가능하도록 한다. 오픈 도메인 지식 기반 대화의 성능 향상을 위해서는 대화에 이어지는 자연스러운 답변을 연속적으로 생성하는 응답 생성 모델의 성능 뿐만 아니라, 내용에 어울리는 응답이 생성될 수 있도록 적합한 지식을 선택하는 지식 검색 모델의 성능 향상도 매우 중요하다. 본 논문에서는 오픈 도메인 지식 기반 한국어 대화에서 지식 검색 성능을 높이기 위해 밀집 벡터 기반 검색 방식과 주제어(Keyword) 기반의 검색 방식을 함께 사용하는 것을 제안하였다. 먼저 밀집 벡터 기반의 검색 모델을 학습하고 학습된 모델로부터 고난도 부정(Hard negative) 지식 후보를 생성하고 주제어 기반 검색 방식으로 고난도 부정 지식 후보를 생성하여 각각 밀집 벡터 기반의 검색 모델을 학습하였다. 성능을 측정하기 위해 전체 지식 중에서 하나의 지식을 검색했을 때 정답 지식인 경우를 계산하였고 고난도 부정 지식 후보로 학습한 주제어 기반 검색 모델의 성능이 6.175%로 가장 높은 것을 확인하였다.

  • PDF