• 제목/요약/키워드: Retrieved Documents

검색결과 98건 처리시간 0.025초

정보검색에서 부울연산자를 연산하는 식의 수학적 특성 (Mathematical Properties of the Formulas Evaluating Boolean Operators in Information Retrieval)

  • 이준호;이기호;조영화
    • 정보관리학회지
    • /
    • 제12권1호
    • /
    • pp.87-97
    • /
    • 1995
  • 부울 검색 시스템은 구현이 용이하고 빠를 검색 시간을 제공하기 때문에, 오늘날 정보 검색 분야에서 가장 널리 사용되고 있다. 그러나 순수한 부울 검색 시스템은 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정도에 따라 정렬 할 수 없다. 부울 검색 시스템에 순위 결정 기능을 부여하기 위하여 퍼지 집합, Waller-Kraft, Paice, P-Norm, Infinite-One과 같은 확장된 부울 모델들이 개발되어 왔다. 이들 모델에서 부울 연산자 AND와 OR에 대한 계산식은 순위 결정의 성능을 결정하는 중요한 요소이다. 본 논문에서는 부울 연산자 계산식의 수학적 특성을 제시하고, 이들이 검색효과에 미치는 영향을 분석한다. 분석 결과는 P-Norm 모델이 높은 검색 효과를 얻기에 가장 적합함을 보여준다.

  • PDF

소프트웨어 객체의 버전 관리를 위한 연산 히스토리 모델 (An Operation History Model for Version Management of Software Objects)

  • 노정규
    • 컴퓨터교육학회논문지
    • /
    • 제7권1호
    • /
    • pp.27-35
    • /
    • 2004
  • 소프트웨어 문서는 논리적인 객체와 객체간의 관계로 이루어진 구조를 가지고 있으며 그 구조가 빈번하게 변경된다. 기존의 소프트웨어 객체 버전 관리에서는 한 객체의 변경이 불필요하게 다른 객체로 전파되는 문제를 가지고 있다. 본 논문에서는 소프트웨어 편집 과정에서 객체에 적용된 연산의 히스토리를 이용하여 소프트웨어 객체의 버전을 효율적으로 관리할 수 있는 모델을 제안하였다. 소프트웨어 객체 편집 과정에서 객체에 적용된 연산을 연산 히스토리에 기록되고 버전 저장과 검색에 이용된다. 객체의 연산 히스토리를 이용한 델타에 의해 저장되고 검색되므로 체크인 과정에서 델타 추출을 위한 비교 과정이 필요 없다. 또, 이 모델은 객체의 생성, 삭제, 변경 연산뿐만 아니라 객체의 이동 연산을 지원함으로써 효율적으로 객체 구조의 변경을 관리할 수 있다.

  • PDF

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

메타 검색에서 외래어 질의 정제 효과 (The Refinement Effect of Foreign Word Transliteration Query on Meta Search)

  • 이재성
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 문서에서 외래어가 일관되게 사용되지 않고 여러 이형태로 사용되고 있기 때문에, 정확한 질의어 일치를 지원하는 검색 시스템에서 외래어 질의로 문서를 검색하는데 어려움이 많다. 본 논문에서는 하나의 외래어로 질의할 경우, 원 질의어와 같은 뜻의 다양한 이형태 외래어 질의로 자동 확장하고 정제하여 더 많은 관련 문서를 손쉽게 검색할 수 있는 메타 검색 방법을 제안한다. 이 방법은 1차로 원 질의어에서 다양한 외래어 이형태를 통계적 방법으로 확장하고, 2차로 그 결과를 각 검색 엔진에게 질의하여 일정 개수 이상의 질의어가 문서에 나타났는지, 원 질의어의 문맥과 유사한 문맥에서 그 질의어가 쓰였는지를 비교하여, 같은 뜻의 유효한 외래어를 판별해 내고 이를 이용하여 검색할 수 있도록 한다. 실험 결과, 기준점으로 쓰인 1차로 만든 이형태로 검색했을 때 F값은 평균 38%이었으나, 제안된 방법인 2차로 정제된 질의어로 검색했을 때의 F값은 평균 81%로 매우 향상된 결과를 보였다.

정보검색효율에 관한 연구 (A Study on the Effectiveness of Information Retrieval)

  • 윤구호
    • 한국문헌정보학회지
    • /
    • 제8권
    • /
    • pp.73-101
    • /
    • 1981
  • Retrieval effectiveness is the principal criterion for measuring the performance of an information retrieval system. The effectiveness of a retrieval system depends primarily on the extent to which it can retrieve wanted documents without retrieving unwanted ones. So, ultimately, effectiveness is a function of the relevant and nonrelevant documents retrieved. Consequently, 'relevance' of information to the user's request has become one of the most fundamental concept encountered in the theory of information retrieval. Although there is at present no consensus as to how this notion should be defined, relevance has been widely used as a meaningful quantity and an adequate criterion for measures of the evaluation of retrieval effectiveness. The recall and precision among various parameters based on the 'two-by-two' table (or, contingency table) were major considerations in this paper, because it is assumed that recall and precision are sufficient for the measurement of effectiveness. Accordingly, different concepts of 'relevance' and 'pertinence' of documents to user requests and their proper usages were investigated even though the two terms have unfortunately been used rather loosely in the literature. In addition, a number of variables affecting the recall and precision values were discussed. Some conclusions derived from this study are as follows: Any notion of retrieval effectiveness is based on 'relevance' which itself is extremely difficult to define. Recall and precision are valuable concepts in the study of any information retrieval system. They are, however, not the only criteria by which a system may be judged. The recall-precision curve represents the average performance of any given system, and this may vary quite considerably in particular situations. Therefore, it is possible to some extent to vary the indexing policy, the indexing policy, the indexing language, or the search methodology to improve the performance of the system in terms of recall and precision. The 'inverse relationship' between average recall and precision could be accepted as the 'fundamental law of retrieval', and it should certainly be used as an aid to evaluation. Finally, there is a limit to the performance(in terms of effectiveness) achievable by an information retrieval system. That is : "Perfect retrieval is impossible."

  • PDF

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

한국 농촌다움 개념 연구 - 농촌다움과 농촌성 연구 비교 중심으로 - (A Study on the Concept of Korean Ruralism - Focusing on the Comparison of Research on Ruralism and Rurality in Korea-)

  • 이동윤;손용훈
    • 농촌계획
    • /
    • 제27권3호
    • /
    • pp.69-84
    • /
    • 2021
  • This study aims to understand the concept of 'ruralism' in Korea by comparing with 'rurality' which were dealt with in various fields related to rural areas in Korea. This study conducted a systematic literature review as a methodology. The process is defining key questions, searching for documents, classifying documents, extracting data, and presenting results. The key questions were set to 'How has the term 'ruralism' been used in various studies?' and 'How can the concept of rurality in Korea be organized?' according to the purpose of the study. The study retrieved literature by searching on Korean academic database, RISS and DBpia, using the five keywords '농촌성', '농촌다움', '농촌다운', 'Rurality,' and 'Ruralism.' The search yielded 1,014 documents which were thereafter screened by systematic literature review process. After sifting, only 31 publications were found suitable for inclusion in the final analysis. This study organized them into four categories: rural concept, rural landscape, rural tourism, and rural development. The literature divided into four types. Type I is a study that deals only with economy·society among studies related to rurality, Type II is a study that deals with both the economic·social and physical environment, Type III is a study that deals with the physical environment of a rural area and presents the rural planning principle as maintenance and preservation. Finally, Type IV is a study that presents ruralism as a new rural planning principle for a future rural area. In the end, the study discussed some implications on defining ruralism in Korea.

연구진행정도에 따른 검색문헌의 적합평가기준 연구 (A Study on relevance criteria of retrieved documents according to the research stage)

  • 김홍렬;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.5-8
    • /
    • 1999
  • 본 연구는 이용자 지향적인 측면에서 적합문헌평가에 대한 다양한 기준들을 확인하고, 실제 연구자들이 그들의 연구 진행정도에 따라서 적합문헌을 평가하는 기준과 문헌의 적합여부평가에 인식적인 차이를 나타내는지를 밝히는데 그 목적이 있다. 이를 위하여 본 연구에서는 문헌조사연구 방법과 실험연구방법을 병행하여 사용하였다. 먼저 문헌조사 연구를 통하여 본 연구문제의 이론적 배경과 이용자 지향적 적합문헌 평가기준들을 종합적으로 분석하고, 실험에 사용할 평가기준들을 도출하였으며, 실험연구에서는 실제 연구문제를 가지고 있는 5명의 이용자를 무작위로 선정하여 그들의 연구진행 정도에 따른 적합평가기준을 시작(정보입수자각, 관련정보를 수집하는 최초의 단계), 진행(수집정보를 정리하고 초점을 형성, 집필의 시작단계), 완성단계(본격적인 집필과정으로 인용문헌들 결정하는 단계)로 나누어 조사하였다.

  • PDF

정보 검색 시스템의 적합성 피드백에 관한 연구 (Automatic Term Relevance Feedback in IRS)

  • 명순희
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권1호
    • /
    • pp.35-46
    • /
    • 1998
  • 비정형 데이터를 다루는 정보검색 시스템에서 검색의 정확도는 사용자의 인지에 의존하며 따라서 사용자의 검색 평가는 시스템의 효율을 측정하는 척도의 하나이다. 적합성피드백은 사용자의 검색 평가를 시스템에 입력하여 질의의 수정, 재 검색을 반복함으로써 재현율과 정확도를 높이고자 하는 질의 확장 방법의 일종이다. 본고에서는 적합성 피드백의이론적 배경과 구현 절차를 기술하였다.

  • PDF

SRR과 DRR을 이용한 멀티미디어 문서 그룹화 (Grouping of Multimedia Documents using SRR and DRR)

  • 이종득;김양범;정택원
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권4호
    • /
    • pp.435-442
    • /
    • 2001
  • 최근에 인터넷상에서 정보이용이 급증함에 따라 멀티미디어 정보를 효율적으로 관리하고 검색하기 위한 여러 가지 방법들이 제안되고 있다. 따라서 본 논문에서는 SRR(Semantic Reference Relation)과 DRR(Direct Reference Relation)을 이용한 새로운 그룹화 방법을 제안한다. 제안된 방법은 MDI(Multimedia Document Informations)를 멀티미디어 객체 클러스터로 간주하여 그룹화 한다. 제안된 방법의 성능을 알아보기 위하여 1000개의 멀티미디어 문서데이터를 테스트하며, 그 결과 제안된 방법의 성능이 보다 효율적임을 보인다.

  • PDF