• Title/Summary/Keyword: Query expansion

Search Result 131, Processing Time 0.028 seconds

Parallel Information Retrieval with Query Expansion (질의 확장을 이용한 병렬 정보 검색)

  • 정유진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.103-105
    • /
    • 2002
  • 이 논문에서는, PC 클러스터 환경에서 질의 확장을 사용하는 정보 검색 시스템 (IR)을 설계하고 구현한 내용을 기술한다. 이 정도 검색 시스템은 문서 집합을 저장하고, 문서 집합은 역색인 파인 (IIF)로 색인되고, 랭킹 방법으로 벡터 모델을 사실하며, 질의 확장 방법으로 코사인 유사도를 사용한다. 질의 확장이란 사용자가 준 원래의 질의에 연관된 단어를 추가하여 검색 효율을 향상시키는 것이다. 여기서 제안하는 병렬 정보 검색 시스템에서는 역색인 과일은 여러 개로 분활되는데 lexical 분할 방법과 greedy 분할 방법을 사용한다. 사용자의 질의가 들어오면 질의확장을 하여 여러 개의 단어로 이루어진 확장된 질의가 만들어 지는데 이 확장된 질의를 구성하는 단어들은 각 단어와 연관된 IIF를 가지고 있는 노드에 보내어져서 병렬로 처리된다. 실험을 통하여 병렬 IR 시스템의 성능이 질의 확장과 IIF의 두 가지 분한 방법에 의해 어떻게 영향을 받는지 보인다. 실험에는 표준 한국어 테스트 말뭉치인 EKSET과 KTSET을 사용하였다. 실험에 따르면 greedy 분활 방법이 lexical 분할 방법에 비해 20%정도의 성능 향상을 보였다.

  • PDF

Query Expansion Using User Search Pattern in Information Retrieval (정보검색에서 사용자 검색 패턴을 이용한 질의 확장)

  • Chun, Woo-Kwan;Kim, Young-Do;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF

Analysis of the Empirical Effects of Contextual Matching Advertising for Online News

  • Oh, Hyo-Jung;Lee, Chang-Ki;Lee, Chung-Hee
    • ETRI Journal
    • /
    • v.34 no.2
    • /
    • pp.292-295
    • /
    • 2012
  • Beyond the simple keyword matching methods in contextual advertising, we propose a rich contextual matching (CM) model adopting a classification method for topic targeting and a query expansion method for semantic ad matching. This letter reports on an investigation into the empirical effects of the CM model by comparing the click-through rates (CTRs) of two practical online news advertising systems. Based on the evaluation results from over 100 million impressions, we prove that the average CTR of our proposed model outperforms that of a traditional model.

Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support (의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Comparing the Performance of Global Query Expansion according to Similarity Measures (유사계수에 따른 전역적 질의확장 검색 성능 비교)

  • 이재윤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

Query Expansion Using Thesaurus for Korean to Chinese Cross- Language Text Retrieval (한.중 교차언어 검색에서 시소러스를 이용한 질의 확장)

  • Jin, Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.538-540
    • /
    • 2003
  • 본 논문은 한.중 교차언어 검색을 위한 효과적인 질의 확장에 대해 기술하고 있다. 한.중 교차언어 검색은 한국어 질의로 중국어 문서를 검색하는 것이고 본 논문에서는 대역어 사전을 이용하여 한국어 질의를 중국어 질의로 변환하는 방식을 사용한다. 질의 확장을 위한 방법으로 중국어 시소러스인“동의사사림”을 사용하였다. 그리고 동의어들과 주변 단어간의 상호 정보를 비교함으로서 재현률과 정확률을 높였다. 실험을 통하여 검증한 결과 사전만 사용하여 변환하는 방법에 비하여 검색 성능이 향상되었다.

  • PDF

Semantic Query Expansion based on a Question Category Concept List in QA system (질의 응답 시스템에서 질의 카테고리별 개념리스트 구축에 기반한 의미적 질의 확장)

  • 김혜정;강보영;박성배;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.178-180
    • /
    • 2004
  • 질의 응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer tyype) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서의 정답문장에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서, 본 논문은 질의별 카테고리 개념 리스트를 구축하여 효과적인 의미적 질의 확장 방법론을 제안한다. 제안된 방법은 먼저 질문 문장의 패턴 린 질의 정보 유형을 파악하여 질의 카테고리 및 카테고리별 개념 리스트를 구축한다. 그런 후 구축된 질의 개념 카테고리 및 리스트를 활용하여 질의 유형을 학습하고, 새로운 질의가 입력되면 해당 개념 카테고리로 분류한 후, 개념 리스트를 기반으로 개념별 질의 확장을 수행한다. 제안된 시스템의 성능 명가를 위하여, TREC-9의 질의와 TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건을 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

  • PDF

A Study on Performance Improvement of Information Retrieval using Threshold of Term Distribution (용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구)

  • 민태홍
    • Journal of the Korea Computer Industry Society
    • /
    • v.3 no.3
    • /
    • pp.407-412
    • /
    • 2002
  • With the increasing availability of information in electronic form, it becomes more important and feasible to have automatic methods to retrieve relevant information in the internet. A deficiency of traditional information retrieval systems is that search terms are often different from those indexed by the systems. Thus, user may either retrieve wrong information or miss what they really want. In this paper, we used an automatic query expansion based on term distribution to enhance the performance of information retrieval. Also this thesis proposed the method for setting the threshold according to area distribution in order to choose additional terns.

  • PDF

Efficient XML Information Search through DTD Filtering and Query Expansion (DTD 여과 및 질의 확장에 의한 효율적인 XML 문서의 정보 검색)

  • Kim, Myoung Sook;Lee, Kyeung Soo;Kong, Yong Hae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.499-502
    • /
    • 2004
  • 본 논문은 정보검색의 대상이 되는 XML 문서를 효율적으로 선별하기 위해 온톨로지를 기반으로 XML 문서를 여과하였으며, 여과된 XML 문서를 대상으로 문서에 내재한 정보를 효과적으로 검색하도록 XML 질의를 확장하였다. 이를 위해, 온톨로지로부터 포괄적 DTD를 생성하는 알고리즘을 개발하였고, XML 문서의 효과적인 정보 검색을 위해 온톨로지의 개념 구조와 연관 관계를 분석하여 XML 질의를 확장하는 알고리즘을 개발하였다. 제안한 문서 여과와 질의 확장 알고리즘의 효과를 샘플 XML 문서에 적용하였다.

  • PDF

Query Expansion based on Word Graph using Term Proximity (단어 근접도를 반영한 단어 그래프 기반 질의 확장)

  • Jang, Gye-Hun;Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.754-757
    • /
    • 2010
  • 질의 확장은 초기 검색결과에서 질의와 연관된 단어를 선택하여 질의를 확장함으로써 검색 성능을 향상시키는 기법이다. 페이지 랭크(PageRank) 알고리즘은 웹문서 사이의 링크구조를 이용하여 문서들의 상대적인 중요성을 측정하기 위해 제안되었다. 본 논문에서는 문서들 사이의 관계가 아니라 문서 안에서 단어 그래프(Word Graph)를 통해 단어들 사이의 상대적인 중요성을 계산하였다. 질의와 가까이 위치한 단어들 사이의 관계를 단어 그래프에 적용하여 중요도를 계산하고 확장단어를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 집합인 TREC WT10g 에 대해 실험하였고, 적합모델(Relevance Model)보다 MAP(Mean Average Precision)가 4.1% 향상되었다.