• 제목/요약/키워드: document retrieval

검색결과 447건 처리시간 0.024초

시멘틱 웹/온톨로지 기술을 이용한 개인용 전자문서 검색 시스템 (Personal Electronic Document Retrieval System Using Semantic Web/Ontology Technologies)

  • 김학래;김홍기
    • 한국전자거래학회지
    • /
    • 제12권1호
    • /
    • pp.135-149
    • /
    • 2007
  • 개인 사용자가 전자문서를 쉽게 사용하려면 전자문서를 효과적으로 분류하고, 정확하게 검색할 수 있는 기능이 필요하다. 그러나 개인 사용자의 컴퓨터에 저장된 문서를 효율적으로 관리하기 위한 방법이나 도구에 대한 연구는 상대적으로 미흡한 상태이다. 본 연구는 개인 사용자가 전자 문서를 효과적으로 관리하고 검색하기 위한 방법을 제안한다. 연구 결과인 ONTALK은 모든 전자문서의 메타데이터를 온톨로지 기반으로 생성하고, 추론엔진(inference engine)을 이용하여 의미적(semantics) 정보 검색을 제공한다.

  • PDF

Xpath에 의한 인터넷 문서의 레이아웃 추출 방법에 관한 연구 (A Study on Layout Extraction from Internet Documents Through Xpath)

  • 한광록;선복근
    • 한국콘텐츠학회논문지
    • /
    • 제5권4호
    • /
    • pp.237-244
    • /
    • 2005
  • 현재 뉴스 데이터 등 대부분의 인터넷 문서는 일정한 템플릿을 기반으로 작성되고 있으며 템플릿은 메인 데이터 이외에 인덱스, 광고, 헤더데이터 등 정보검색에 도움이 되지 않는 형태로 구성되어 있다. 이는 인터넷 문서를 정보검색의 데이터로서 사용하려고 할 때 적합한 형태가 아니다. 그러므로 다양한 정보검색 분야에서 인터넷 문서를 처리하기 위해선 광고, 페이지 인덱스 등의 부가정보를 분별해야 한다. 따라서 본 논문에서는 웹페이지의 레이아웃에 영향을 미치는 블럭 태그의 특징과 구조를 파악하고 웹페이지간의 거리를 계산하여, 웹페이지의 레이아웃을 검출하는 방법을 제안한다. 실험결과 1000개의 문서 중 640개를 분류했으며, 평균 64%의 recall 수치를 얻을 수 있었다. 이 방법을 데이터 추출, 문서요약 등의 정보검색 분야의 전처리 과정에 적용할 경우 문서의 자동화 처리 시간을 감소시키고 처리의 효율성을 높일 수 있을 것으로 기대된다.

  • PDF

가변 K진 완전트리와 RDF메타정보에 기반한 XML문서 저장 및 검색 프레임워크의 설계 및 구현 (A Design and Implementation of XML Document storing and retrieval Framework based on a variant k-ary complete tree and RDF Metadata)

  • 김규태;정회경;이수연
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.612-622
    • /
    • 2003
  • XML문서가 표준 인터넷 문서로 정착되어 감에 따라 XML문서의 효율적인 저장과 검색의 필요성이 증대하고 있다. 이에 본 논문에서는 XML문서의 효과적인 저장 모듈과 검색 모듈, 그리고 이를 웹 상에서 연동해서 사용할 수 있는 연동 API로 구성된 XML문서의 저장 및 검색 프레임워크에 대한 연구를 하였다. 저장모듈에서는 가변 K진 완전트리를 기반으로 한 DTD 독립적인 분할-통합형 저장모델을 구현하였고, 검색 모듈에서는 RDF 메타정보를 통해 구축된 색인에 대해 XPath 질의를 수행하는 XPath처리기를 구현함으로써 좀더 의미 있는 구조 검색 기능을 구현하였으며, XML-RPC, HTTP의 GET, POST, PUT 방식 API와 SOAP 방식의 API로 구성된 웹 연동 모듈을 구현하였다.

동적 환경에 적합한 SGML 인덱스 관리자의 설계 및 구현 (Design and Implementation of a SGML Index Manager for Dynamic Environment)

  • 한성근;손정한;장재우;김현기;강현규
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2574-2586
    • /
    • 1999
  • SGML문서는 정보 표현의 기본 단위인 엘리먼트로 구성되어져 있기 때문에 SGML 정보 검색은 기존의 정보 검색에서의 문서 단위 검색뿐만 아니라 엘리먼트 단위 검색이 이루어져야 한다. 또한, SGML 인덱스 구조는 동적 환경을 위해 문서의 부분 삭제와 부분 삽입을 지원해야 한다. 이를 위해 본 연구에서는 동적 환경하에서 구조 질의에 적합한 SGML 인덱스 구조를 제안한다. 그리고, 제안된 인덱스 구조에 근거하여 내용 및 구조-기반 검색을 효율적으로 지원하는 인덱스 관리자를 설계하고, O2시스템을 기반으로 SGML 정보 검색 인덱스 관리자를 구현하며, 기존 인덱스 관리자와 성능 비교를 수행한다. 검색성능 비교 결과, 본 연구에서 제안한 방법이 기존의 K-ray 완전 트리를 사용한 방법보다 더 우수함을 나타낸다.

  • PDF

Word Embeddings-Based Pseudo Relevance Feedback Using Deep Averaging Networks for Arabic Document Retrieval

  • Farhan, Yasir Hadi;Noah, Shahrul Azman Mohd;Mohd, Masnizah;Atwan, Jaffar
    • Journal of Information Science Theory and Practice
    • /
    • 제9권2호
    • /
    • pp.1-17
    • /
    • 2021
  • Pseudo relevance feedback (PRF) is a powerful query expansion (QE) technique that prepares queries using the top k pseudorelevant documents and choosing expansion elements. Traditional PRF frameworks have robustly handled vocabulary mismatch corresponding to user queries and pertinent documents; nevertheless, expansion elements are chosen, disregarding similarity to the original query's elements. Word embedding (WE) schemes comprise techniques of significant interest concerning QE, that falls within the information retrieval domain. Deep averaging networks (DANs) defines a framework relying on average word presence passed through multiple linear layers. The complete query is understandably represented using the average vector comprising the query terms. The vector may be employed for determining expansion elements pertinent to the entire query. In this study, we suggest a DANs-based technique that augments PRF frameworks by integrating WE similarities to facilitate Arabic information retrieval. The technique is based on the fundamental that the top pseudo-relevant document set is assessed to determine candidate element distribution and select expansion terms appropriately, considering their similarity to the average vector representing the initial query elements. The Word2Vec model is selected for executing the experiments on a standard Arabic TREC 2001/2002 set. The majority of the evaluations indicate that the PRF implementation in the present study offers a significant performance improvement compared to that of the baseline PRF frameworks.

빅 데이터 환경에서 계층적 문서 유형 분류를 위한 클러스터링 기반 다중 SVM 모델 (Multi-class Support Vector Machines Model Based Clustering for Hierarchical Document Categorization in Big Data Environment)

  • 김영수;이병엽
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.600-608
    • /
    • 2017
  • 최근 인터넷의 급격한 확장에 따른 정보의 양이 기하급수적으로 증가하고 있다. 그러나 실제 사용자에게 필요한 정보는 극히 일부분으로 사용자가 원하는 정보를 찾는데 까지는 부가적인 시간과 노력이 요구된다. 따라서 검색어로 검색된 문서에 대한 유사도 평가를 통한 계층적 유사 정보와 검색 우선순위에 대한 정보를 제공할 필요성이 있다. 이를 위해서 검색어를 구성하고 있는 키워드의 동시 발생 빈도를 고려한 검색 문서에 대한 유사도를 기반으로 문서 클러스터를 구성하고 SVM을 적용한 빅 데이터 기반 계층적 유형 분류 모델을 제안한다. 계층적 분류방법과 SVM 분류기의 결합은 문서의 계층이 기하급수적으로 늘어나는 웹 문서의 경우에 높은 성능을 얻을 수 있다. 제안된 모델은 정확하고 신속한 검색을 제공하는 정보검색시스템의 응용 모델로 활용될 수 있다.

XML DOM을 이용한 웹문서 검색 알고리즘 (Retrieval algorithm for Web Document using XML DOM)

  • 김노환;정충교
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.775-782
    • /
    • 2001
  • 현재까지 웹 검색엔진은 각 문서가 어떤 키워드를 얼마나 갖고 있는지, 키워드의 빈도수에 따라서, 문서에 키워드를 많이 포함하는 문서가 가까운 문서라는 가정에 의거 문서 순위를 사용자에게 보여주는 형태였다. 이런 형태의 검색은 HTML 웹 데이터처럼 구조적인 정보를 포함하지 않은 일반 문서형태의 경우 키워드의 발생빈도를 고려하는 형태에서는 별 문제가 없지만 구조적인 정보를 갖고 있는 XML로 표현된 웹 데이터일 경우에는 그래프 형태의 모델표현이 가능하기 때문에 단순히 키워드의 빈도만을 고려하는 형태로서는 바른 검색결과를 얻을 수 없다. 따라서 XML 문서의 구조적인 특성을 최대한 활용하여 SQL과 유사한 형태의 질의를 통하여 원하는 데이터만을 추출한다면 단순히 키워드에 의존하는 형태의 질의를 탈피하며 보다 분명한 검색결과를 획득할 수 있다고 생각한다. 본 논문에서는 XML DOM을 이용하여 XML 데이터의 정보검색 시스템을 모델링하고, 이와 관련된 알고리즘을 제안하고자 한다.

  • PDF

퍼지 집합 모델의 검색 효율 개선을 위한 퍼지 연산자의 분석 (Fussy operator analyses to imporve retrieval effectiveness of the fuzzy set model)

  • 이준호;김원용;이윤준;김명호
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.53-63
    • /
    • 1993
  • AND와 OR에 대한 연삭식으로 MIN과 MAX를 사용하는 기존의 퍼지 집합 모델은 많은 경우에 사람이 생각하는 것과 다른 문서값을 생성하기 때문에 정보 검색 모델로서 부적합하다고 비판되어 왔다. 퍼지 집합 이론이 도입된 이후로 AND OR에 대한 연삭식으로 다양한 퍼지 연산자들이 개발되어 왔다. 본 논문에서는 이러한 퍼지 연산자들의 문서값 생성 특성을 분석하고, MIN과 MAX 대신에 긍정적 보상 연산자라 불리는 퍼지 연산자를 사용할 것을 제안한다. 긍정적 보상 연산자를 사용하는 퍼지 집합 모델이 보다 우수한 검색 효율을 제공함을 실험을 통하여 입증한다.

  • PDF

A Database Approach for Modeling and Querying XML Documents

  • Panseop Shin;Kim, Jeong-Eun;Lee, Jaeho;Haechull Lim
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.703-706
    • /
    • 2000
  • In recent years. XML applications are being developed in diverse area. Especially, development of XML document repository system associated with database is carrying out widely. The previous researches of XML repository system have several defects which are update and retrieval limitations for the XML document, design limitation for a formal retrieval algorithm and data redundancy. In order to solve the above problems. in this paper, we suggest relational database schemes for overcoming limitations of updating, retrieving, and rebuilding document. And suggest query translation strategy using two-phase translation that consists of pattern analyzing phase and SQL generating phase.

  • PDF

한글 텍스트 문서 분류시스템을 위한 속성선택 (Feature Selection for a Hangul Text Document Classification System)

  • Lee, Jae-Sik;Cho, You-Jung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.435-442
    • /
    • 2003
  • 정보 추출(Information Retrieval) 시스템은 거대한 양의 정보들 가운데 필요한 정보의 적절한 탐색을 도와주기 위한 도구이다. 이는 사용자가 요구하는 정보를 보다 정확하고 보다 효과적이면서 보다 효율적으로 전달해주어야만 한다. 그러기 위해서는 문서내의 무수히 많은 속성들 가운데 해당 문서의 특성을 잘 반영하는 속성만을 선별해서 적절히 활용하는 것이 절실히 요구된다. 이에 본 연구는 기존의 한글 문서 분류시스템(CB_TFIDF)[1]의 정확도와 신속성 두 가지 측면의 성능향상에 초점을 두고 있다. 기존의 영문 텍스트 문서 분류시스템에 적용되었던 다양한 속성선택 기법들 가운데 잘 알려진 세가지 즉, Information Gain, Odds Ratio, Document Frequency Thresholding을 통해 선별적인 사례베이스를 구성한 다음에 한글 텍스트 문서 분류시스템에 적용시켜서 성능을 비교 평가한 후, 한글 문서 분류시스템에 가장 적절한 속성선택 기법과 속성 선택에 대한 가이드라인을 제시하고자 한다.

  • PDF