• 제목/요약/키워드: Document information retrieval

검색결과 410건 처리시간 0.028초

서지 데이터베이스에서의 레코드 필드 선택이 검색 성능에 미치는 영향에 관한 연구 (A Study of the Influence of Choice of Record Fields on Retrieval Performance in the Bibliographic Database)

  • Heesop Kim
    • 한국문헌정보학회지
    • /
    • 제35권4호
    • /
    • pp.97-122
    • /
    • 2001
  • 본 연구에서는 레코드필드 선택이 대규모 서지 데이터베이스 탐색시 미치는 검색 성능에 대하여 관찰하였다. 실험의 구성 요소는 크게 (1) 대규모 상업용 데이터베이스 INSPEC. (2) 관련된 레코드들 (target sets이라고 정의함). (3) 4개의 키워드가 한 세트로 이루어진 4개의 서로 다른 형태의 질의어들 (CT_TF, CT_IDF, UT_TF, UT_IDF), (4) 최적의 질의를 위한 알고리즘, (5) 가능한 모든 경우의 탐색식을 생성해내는 블리언 탐색식 생성기, 그리고 (6) 실제 운영중인 웹 기반의 검색 시스템으로 이뤄졌다. 실험에서의 레코드 필드 선택은 (1) Abstract, (2) Descriptors, (3) Identifiers, (4) 'Subject'(Descriptors + Identifiers). (5) Title. (6) 'All fields'로 정의하여 독립변수로 채택하였다. 검색 성능은 재현율, 정도율을 모두 반영한 Heine의 D측정에 의하여 평가 되었다. 본 연구에서 얻은 주된 결과로는 (1) 필드선택은 검색성능에 중요한 영향을 미치며, (2) 각 검색 성능에서 보여준 순위는 질의어에 따라 민감한 결과를 보였고 (3) 제목(Title)필드 선택이 D측정에서 최적의 결과를 보였다.

  • PDF

질의응답문서 검색에서 문서구조를 이용한 질의재생성에 관한 연구 (Query Reconstruction for Searching QA Documents by Utilizing Structural Components)

  • 최상희;서은경
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.229-243
    • /
    • 2006
  • 질의응답문서는 이용자가 입력한 질의, 질의설명, 답을 아는 다른 이용자가 제시한 응답으로 구성된 구조화된 문서로서, 최근 웹 문서처럼 검색이 일반적으로 일어나고 있는 정보원이다. 이 연구에서는 질의응답문서의 구조적 특성을 기반으로 질의를 재생성하여 질의응답문서의 검색효율을 향상시키고자 하였다. 질의재생성 실험에서 성능이 비교된 문서구조는 질의와 응답내용이다. 질의를 기반으로 질의를 재생성하는 방식에서는 질의응답검색 시스템에 입력되어 있는 유사질의를 활용하여 클러스터링하는 기법이 적용되었다. 응답정보를 기반으로 질의를 재생성하는 방식에서는 가장 유사한 기존 질의에 대해 응답된 내용에서 단락검색으로 적합한 문장들을 선정하여 활용하는 기법이 적용되었다. 실험 결과 응답정보를 활용하여 질의를 재생성하는 방식이 정확률은 유지하면서 더 다양한 검색결과를 제공하는 것으로 나타났다.

교량정보모델 기반의 설계정보와 XML 기반의 문서정보 통합 (Integration between XML-based Document Information and Bridge Information Model-based Structural Design Information)

  • 정연석;김봉근;정원석;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2006년도 정기 학술대회 논문집
    • /
    • pp.208-215
    • /
    • 2006
  • This study provides a new operation strategy which can guarantee the data consistency of engineering information among the various intelligent information systems. We present the strategies for the operation of bridges engineering information and the construction methodology of integrated database. The two core standard techniques are adopted to construct the integrated database. One of these standards is the Standard for the Exchange of Product Model Data (STEP) for CAD/CAE information and the other is the Extensible Markup Language (XML) for engineering document information. This study can transform a document me into a data type for web-based application modules which assist end-users in searching and retrieval of engineering document data. In addition, relaying algorithm is developed to integrate the two different information, e.g. CAD/CAE information and engineering document information. The pilot application modules for management and maintenance of existing bridge are also developed to show application of the strategy.

  • PDF

An Optimal Weighting Method in Supervised Learning of Linguistic Model for Text Classification

  • Mikawa, Kenta;Ishida, Takashi;Goto, Masayuki
    • Industrial Engineering and Management Systems
    • /
    • 제11권1호
    • /
    • pp.87-93
    • /
    • 2012
  • This paper discusses a new weighting method for text analyzing from the view point of supervised learning. The term frequency and inverse term frequency measure (tf-idf measure) is famous weighting method for information retrieval, and this method can be used for text analyzing either. However, it is an experimental weighting method for information retrieval whose effectiveness is not clarified from the theoretical viewpoints. Therefore, other effective weighting measure may be obtained for document classification problems. In this study, we propose the optimal weighting method for document classification problems from the view point of supervised learning. The proposed measure is more suitable for the text classification problem as used training data than the tf-idf measure. The effectiveness of our proposal is clarified by simulation experiments for the text classification problems of newspaper article and the customer review which is posted on the web site.

정보검색에서 어휘체인을 이용한 효과적인 색인어 추출 방안 (An Efficient Index Term Extraction Method in IR using Lexical Chains)

  • 강보영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권8호
    • /
    • pp.584-594
    • /
    • 2002
  • 정보 검색(Information Retrieval)이나 디지털 도서관(Digital Library)과 같은 분야에서 가장 중요한 요소는 사용자가 필요로 하는 정보를 찾아주는 것이다. 이를 위해서 사용자가 사용하는 장치는 사용자의 의도뿐만 아니라 문서의 내용 또한 잘 파악하여야 한다. 본 논문은 문서의 의미적인 내용을 파악하는데 도움을 주는 효과적인 키워드 추출 시스템을 제안한다. 제안된 시스템은 문서에서 추출된 명사들의 의미(sense)를 결정(disambiguation)하고, 의미가 결정된 명사로 어휘체인을 생성한다. 특정 척도를 이용하여 강한 체인을 선별하고, 몇 개의 강한 체인에서 키워드들을 추출한다. 문서에서 사용된 명사들의 실제 센스를 결정하는 단계에서 semantic window라는 개념을 제안한다. 이것은 주변 명사들과의 의미관계를 미리 살펴보고, 문서내의 명사들의 센스를 결정하는 것이다. 본 시스템의 성능을 검증하기 위하여, 주요 구(key phrase) 추출 시스템인 KEA의 성능과 비교 분석하였다. 본 시스템은 정보 검색과 디지털 도서관을 포함한 범용적인 도메인에서 유용하게 사용될 수 있을 것으로 판단된다.

Classification Analysis in Information Retrieval by Using Gauss Patterns

  • Lee, Jung-Jin;Kim, Soo-Kwan
    • Communications for Statistical Applications and Methods
    • /
    • 제9권1호
    • /
    • pp.1-11
    • /
    • 2002
  • This paper discusses problems of the Poisson Mixture model which Is widely used to decide the effective words in judging relevant document. Gamma Distribution model and Gauss Patterns model as an alternative of the Poisson Mixture model are studied. Classification experiments by using TREC sub-collection, WSJ[1,2] with MGQUERY and AidSearch3.0 system are discussed.

효율적 문서 검색 및 변경을 위한 XML문서 저장 시스템 설계 (Design of an XML Document Storage System for Efficient Document Retrieval and Updates)

  • 박충희;이상준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.548-550
    • /
    • 2003
  • 본 논문에서는 관계형 데이터베이스를 이용하여 XML 문서를 효과적으로 검색 및 갱신을 수행할 수 있는 데이터 저장 모델을 제안한다. 저장 시스템의 스키마는 DTD 독립적인 형태를 채택하였고, 가상 분할 모델과 분할 모델의 장점을 취합한 혼합형태로 설계하였다. 본 시스템에서는 엘리먼트 추가 또는 삭제시 문서의 구조정보 변경으로 인한 변경사항 발생을 방지하기 위하여 타 노드의 위치정보와 독립적인 position id를 사용하였다.

  • PDF

XSL를 이용한 XML 문서 검색에 관한 연구 (Study for XML document retrieval to use XSL)

  • 김충성;김용성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.66-68
    • /
    • 1999
  • 최근 들어 이 기종 간의 문서 교환을 위해 SGML(Standard Markup Language) 문서보다 XML(eXtend Markup Language) 문서가 인터넷 기반에서 표준으로 자리잡고 있다. 앞으로 인터넷상의 수많은 정보들을 XML을 기반으로 할 것이고 이를 위해 문서 정보 검색 시스템이 필요하게 된다. 문서의 논리 구조를 표현하는 DTD(Document Type Definition) 기반으로 구조 검색을 할 수 있지만 본 논문에서는 XSL(XML Style Sheet Language) 문서에서 DTD의 Element를 지정하는 Pattern을 이용하여 문서 구조와 속성을 새로운 Tree로 표현하며 검색에 필요한 질의어 또한 XSL의 Pattern 자체를 이용하고 있다. 사용자에게 편하고 효율적인 검색 환경을 위해서 검색 인터페이스의 모형을 제안하였다.

  • PDF

문서 내용의 계층화를 이용한 문서 비교 방법 (Document Clustering Methods using Hierarchy of Document Contents)

  • 황명권;배용근;김판구
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2335-2342
    • /
    • 2006
  • 웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

Automated Essay Grading: An Application For Historical Malay Text

  • Syed Mustapha, S.M.F.D;Idris, N.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.237-245
    • /
    • 2001
  • Automated essay grading has been proposed for over thirty years. Only recently have practical implementations been constructed and tested. This paper investigated the role of the nearest-neighbour algorithm within the information retrieval as a way of grading the essay automatically called Automated Essay Grading System. It intended to offer teachers an individualized assistance in grading the student\`s essay. The system involved several processes, which are the indexing, the structuring of the model answer and the grade processing. The indexing process comprised the document indexing and query processing which are mainly used for representing the documents and the query. Structuring the model answer is actually preparing the marking scheme and the grade processing is the process of assessing the essay. To test the effectiveness of the developed algorithms, the algorithms are tested against the History text in Malay. The result showed that th information retrieval and the nearest-neighbour algorithm are practical combination that offer acceptable performance for grading the essay.

  • PDF