• Title/Summary/Keyword: Document information retrieval

Search Result 411, Processing Time 0.026 seconds

Selection of Cluster Topic Words in Hierarchical Clustering using K-Means Algorithm

  • Lee Shin Won;Yi Sang Seon;An Dong Un;Chung Sung Jong
    • Proceedings of the IEEK Conference
    • /
    • 2004.08c
    • /
    • pp.885-889
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Hierarchical clustering improves the performance of retrieval and makes that users can understand easily. For outperforming of clustering, we implemented hierarchical structure with variety and readability, by careful selection of cluster topic words and deciding the number of clusters dynamically. It is important to select topic words because hierarchical clustering structure is summarizes result of searching. We made choice of noun word as a cluster topic word. The quality of topic words is increased $33\%$ as follows. As the topic word of each cluster, the only noun word is extracted for the top-level cluster and the used topic words for the children clusters were not reused.

  • PDF

A Design and Implementation of XML Document Retrieval System Based on XQL supporting Web Publishing Framework (웹 출판 프레임워크를 지원하는 XQL기반 XML 문서 검색 시스템 설계 및 구현)

  • Moon, Jong-Hwan;Kim, Cheol-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1095-1098
    • /
    • 2001
  • 정보의 구조적 표현 가능하고 인터넷을 기반으로 하는 정보교환의 매개체로써 다양한 응용분야에 확산되고 있는 XML(extensible Markup Language)은 차세대 인터넷 전자문서 표준으로 주목받고 있다. 최근들어 기존 문서를 XML로 변환하거나 신규 문서를 XML로 작성하는 사례가 늘면서 대량의 XML문서가 생성되고 있으며 이에 따라 대량의 XML 문서를 효율적으로 검색하기 위한 XML 검색 시스템이 요구되어지고 있다. 본 논문에서는 내용기반, 구조기반, 속성기반 검색을 지원하는 XML 문서의 질의언어로 제안되어진 XQL과 XML 문서를 분석하는 문서 구조 처리기, 사용자 입력 질의를 실행하기 위한 질의 언어 처리기를 가지는 XML 문서검거 시스템을 제시하고 검색된 문서의 견과를 웹 출판 프레임워크(Web Publishing Framework) 인 Cocoon을 적용하여 다른 포맷의 문서로 전환 가능한 시스템을 설계 및 구현하였다.

  • PDF

Design and Implementation of a Structure and Content-based Multimedia Document Retrieval System (구조 및 내용-기반 멀티미디어 문서검색 시스템의 설계 및 구현)

  • Jin, Du-Seok;Lee, Jeong-Jae;Chang, Jae-Woo
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.11
    • /
    • pp.3341-3355
    • /
    • 2000
  • 최근 멀티미디어 문서의 개수가 기하 급수적으로 증가함에 따라, 사용자가 요구하는 멀티미디어 문서를 보다 효과적으로 저장 및 검색할 수 있는 멀티미디어 문서 검색 시스템을 개발하는 것이 필요하다. 본 논문에서는 XML로 정의된 문서를 문서 구조 및 이미지 내용을 기반으로 보다 효율적으로 검색할 수 있는 시스템을 설계 및 구현한다. 효율적인 구조-기반 검색을 지원하기 위해서 구조 인덱스를 o2store 저장 시스템을 사용하여 구현한다. 아울러 내용-기반 검색을 지원하기 위해서 X-트리에 기반한 효율적인 고차원 색인구조를 구현한다. 마지막으로 구현된 멀티미디어 문서검색 시스템을 검색시간, 저장시간, 부가 저장 공간의 관점에서 성능평가를 수행한다.

  • PDF

Web-Document Retrieval Using Genetic Search (유전자 탐색에 의한 웹문서 검색)

  • 서영우;장영탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.69-71
    • /
    • 1998
  • 본 논문에서는 웹을 기반으로 한 인터넷에서 유전자 알고리즘을 이용한 정보검색 방법을 제시한다. 특정 문제에 대한 가설 공간을 탐색하여 최적의 해를 찾을 때 지역성과 전역성을 함께 고려하는 유전자 알고리즘의 특성을 웹에서의 정보검색에 이용한다. 여기에서 고려할 점은 탐색속도와 탐색방향인데 본 논문에서는 탐색속도를 고려하지 않았다. 탐색방향은 사용자의 정보 요구와 검색된 문서와 유사도 평가함수로 조절하였다. 본 논문에서 제안한 유사도 평가함수로 실험을 한 결과, 사용자의 초기 정보요구에 대한 검색결과의 적합성 여부에 대한 사용자의평가가 기존의 검색엔진을 사용했을 때보다 개선된 결과를 얻을 수 있었다. 그리고 HTML 문서의 특성을 고려해서 검색하는 경우에는 검색어에 대해 보다 특정적인 결과를 제시했으며, 문서 내에서 검색어의 지역 중요도만을 고려하는 경우는 보다 일반적인 결과를 제시하는 것을 확인할 수 있었다.

  • PDF

A Query Classification Method for Question Answering on a Large-Scale Text Data (대규모 문서 데이터 집합에서 Q&A를 위한 질의문 분류 기법)

  • 엄재홍;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.253-255
    • /
    • 2000
  • 어떠한 질문에 대한 구체적 해답을 얻고 싶은 경우, 일반적인 정보 검색이 가지는 문제점은 검색 결과가 사용자가 찾고자 하는 답이라 하기 보다는 해답을 포함하는(또는 포함하지 않는) 문서의 집합이라는 점이다. 사용자가 후보문서를 모두 읽을 필요 없이 빠르게 원하는 정보를 얻기 위해서는 검색의 결과로 문서집합을 제시하기 보다는 실제 원하는 답을 제공하는 시스템의 필요성이 대두된다. 이를 위해 기존의 TF-IDF(Term Frequency-Inversed Document Frequency)기반의 정보검색의 방삭에 자연언어처리(Natural Language Processing)를 이용한 질문의 분류와 문서의 사전 표지(Tagging)를 사용할 수 있다. 본 연구에서는 매년 NIST(National Institute of Standards & Technology)와 DARPA(Defense Advanced Research Projects Agency)주관으로 열리는 TREC(Text REtrieval Conference)중 1999년에 열린 TREC-8의 사용자의 질문(Question)에 대한 답(Answer)을 찾는 ‘Question & Answer’문제의 실험 환경에서 질문을 특징별로 분류하고 검색 대상의 문서에 대한 사전 표지를 이용한 정보검색 시스템으로 사용자의 질문(Question)에 대한 해답을 보다 정확하고 효율적으로 제시할 수 있음을 실험을 통하여 보인다.

  • PDF

Improving Preprocessing step for Document retrieval system based on String Alignment (정렬을 이용한 내용기반 문서탐색 시스템의 전처리 과정 개선)

  • Kim, Hyong-Jun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.248-251
    • /
    • 2008
  • 문서 표절이 사회적으로 이슈가 됨에 따라 표절 문서를 판별할 수 있는 시스템의 필요성이 대두되었다. 문서 표절 검사 시스템에서 가장 중요한 이슈는 성능과 속도인데 이 두 가지를 모두 만족시키기 위해서는 표절을 상세하게 검사하기 전에 표절 의심 문서에 대한 비교 문서군이 크기를 최적화하여 표절 검사 범위를 최대한 작게 만들어야 한다. 비교 문서군의 크기를 최적화하기 위해서는 표절 의심 문서와 상관이 없는 문서를 필터링 하는 작업이 필요하다. 이 논문에서는 문서를 빠르게 필터링 하기 위해서 웹 문서 검색에 사용되는 Inverted Index을 이용하여 적당한 시간 안에 비교 문서군의 크기를 최적화 하는 방법들을 알아보고 각각의 방법들의 성능을 비교 분석하는 방법을 제시하며 그 방법들을 바탕으로 성능을 분석하여 최적화된 문서 필터링 방법을 알아본다.

  • PDF

An Indexing Model for Efficient Structure-based Retrieval on XML Documents (XML 문서에 대한 효율적인 구조 기반 검색을 위한 색인 모델)

  • 박종관;강형일;손충범;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.18-20
    • /
    • 2000
  • XML 문서의 구조검색을 위한 기존 방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 다양한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서에 대해 구조정보를 표현하기 위한 방법을 제시한다. 구조정보는 엘리먼트 이름을 식별할 수 있는 EID, 부모와 자식 엘리먼트간의 계층정보를 위한 ETID, 동일한 부모 엘리먼트를 갖는 자식 엘리먼트들의 순서정보를 위한 SORD, 그리고 동일한 부모 엘리먼트를 갖는 자식들 중 동일한 타입의 엘리먼트들에 대한 순서정보를 위한 SSORD로 구성된다. 이런 구조정보를 이용해 빠른 검색을 위한 내용 색인, 구조 색인, 애트리뷰트 색인을 설계한다. 설계된 색인을 통하여 질의를 처리하는 과정을 설명함으로써 다양한 구조적 질의를 효과적으로 처리할 수 있음을 보인다.

  • PDF

A Study on Document Retrieval Using Bibliographic Citations (인용문헌을 이용한 검색에 관한 연구)

  • Kim, Young-Min
    • Journal of the Korean Society for information Management
    • /
    • v.2 no.1
    • /
    • pp.136-163
    • /
    • 1985
  • A user who retrieved relevant documents from the existing commercial databases may be not always satisfied with the results of the traditional bibliographic searches using the subject index terms. On the assumption that the user wants more relevant documents in such instances, this thesis presents an expanded search strategy by carrying out an experiment using bibliographic citations as another content indicator in addition to index terms.

  • PDF

An Investigation of Automatic Term Weighting Techniques

  • Kim, Hyun-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.1 no.1
    • /
    • pp.43-62
    • /
    • 1984
  • The present study has two main objectives. The first objective is to devise a new term weighting technique which can be used to weight the significance value of each word stem in a test collection of documents on the subject of "enteral hyperalimentation." The next objective is to evaluate retrieval performance of proposed term weighting technique, together with four other term weighting techniques, by conducting a set of experiments. The experimental results have shown that the performance of Sparck Jones's inverse document frequency weighting and the proposed term significance weighting techniques produced better recall and precision ratios than the other three complex weighting techniques.

  • PDF

Design of Multimedia Document Retrieval System Using Relations between Media (미디어간 상호 연관성을 이용한 멀티미디어 문서 검색 시스템의 설계)

  • 이성환;유채곤;이원호;황치정
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.274-276
    • /
    • 1998
  • 많은 분야에서 정보를 효과적으로 전달하기 위한 수단으로 멀티미디어가 많이 사용되고 있다. 이에 멀티미디어 문서를 효율적으로 저장, 검색, 표현하기 위한 기법에 대한 연구가 필요하다. 멀티미디어 문서 내에 사용되는 audio, video, image, text와 같은 여러 미디어들은 문서 내에서 시.공간적 관계뿐 아니라 내용상의 연관성을 갖게 된다. 본 논문에서는 멀티미디어 문서에 사용되는 미디어들의 특징 및 연관성을 추출해 내고, 각 미디어들을 효율적으로 관리하기 위하여 미디어 특성에 맞는 세크멘테이션 기법을 이용하고 이들에 대한 내용상의 연관성을 고려하여 저장(store), 검색(retrieve), 표현(present)하기위한 시스템을 설계 하였다.