• Title/Summary/Keyword: 문서 확장

Search Result 689, Processing Time 0.028 seconds

Parallel Information Retrieval with Query Expansion (질의 확장을 이용한 병렬 정보 검색)

  • 정유진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.103-105
    • /
    • 2002
  • 이 논문에서는, PC 클러스터 환경에서 질의 확장을 사용하는 정보 검색 시스템 (IR)을 설계하고 구현한 내용을 기술한다. 이 정도 검색 시스템은 문서 집합을 저장하고, 문서 집합은 역색인 파인 (IIF)로 색인되고, 랭킹 방법으로 벡터 모델을 사실하며, 질의 확장 방법으로 코사인 유사도를 사용한다. 질의 확장이란 사용자가 준 원래의 질의에 연관된 단어를 추가하여 검색 효율을 향상시키는 것이다. 여기서 제안하는 병렬 정보 검색 시스템에서는 역색인 과일은 여러 개로 분활되는데 lexical 분할 방법과 greedy 분할 방법을 사용한다. 사용자의 질의가 들어오면 질의확장을 하여 여러 개의 단어로 이루어진 확장된 질의가 만들어 지는데 이 확장된 질의를 구성하는 단어들은 각 단어와 연관된 IIF를 가지고 있는 노드에 보내어져서 병렬로 처리된다. 실험을 통하여 병렬 IR 시스템의 성능이 질의 확장과 IIF의 두 가지 분한 방법에 의해 어떻게 영향을 받는지 보인다. 실험에는 표준 한국어 테스트 말뭉치인 EKSET과 KTSET을 사용하였다. 실험에 따르면 greedy 분활 방법이 lexical 분할 방법에 비해 20%정도의 성능 향상을 보였다.

  • PDF

An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback (유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성)

  • An, Hong-Guk;Ko, Young-Joong;Seo, Jung-Yun
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

An Index Method for Storing and Extracting XML Documents (XML 문서의 저장과 추출을 위한 색인 기법)

  • Kim Woosaeng;Song Jungsuk
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.2
    • /
    • pp.154-163
    • /
    • 2005
  • Because most researches that were studied so far on XML documents used an absolute coordinate system in most of the index techniques, the update operation makes a large burden. To express the structural relations between elements, attributes and text, we need to reconstruct the structure of the coordinates. As the reconstruction process proceeds through out the entire XML document in a cascade manner, which is not limited to the current changing node, a serious performance problem may be caused by the frequent update operations. In this paper, we propose an index technique based on extensible index that does not cause serious performance degradations. It can limit the number of node to participate in reconstruction process and improve lots of performance capacities on the whole. And extensible index performs the containment relationship query by the simple expression using SQL statement.

  • PDF

Representing and Processing Multimedia and Structured Documents For XML-Based Virtual Documents (XML 기반 가상문서에서의 멀티미디어 및 구조적 문서의 표현과 처리)

  • 박천수;임동수;박종현;강민구;강지훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.246-248
    • /
    • 2000
  • 가상문서는 웹 상에 존재하는 내용 중에서 원하는 부분만을 링크를 이용해 새로운 문서를 생성하는 개념이다. 본 논문에서는 가상문서를 지원하는 디지털 도서관 시스템에서 텍스트, 이미지 데이터뿐 아니라 멀티미디어 데이터와 구조적 의미를 갖는 데이터를 처리 가능하도록 DTD의 표기법을 확장하였다. 또한, 저작도구에서 생성된 내포링크, 참조링크, 총칭링크 등 다양한 의미의 가상무서를 브라우징 가능하도록 문서 변환기에서 멀티미디어와 구조적 문서를 처리하기 위한 방법을 제시하였다.

  • PDF

Korean Query Processing System for XML Document Retrieval (XML 문서 검색을 위한 한국어 질의 처리 시스템)

  • 박춘용;이현영;윤보현;강현규;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.161-163
    • /
    • 2000
  • 인터넷 문서의 표준 사양인 XML 문서가 늘어나면서 XML 문서를 효과적으로 관리고 검색하기 위한 시스템이 개발되고 있다. 그러나 정형화된 질의언어를 사용한 XML 문서의 검색 방법은 질의언어의 구조를 이해하고 사용법을 숙지해야 하는 어려움이 있어 일반 사용자에게는 적합하지 않다. 따라서 사용자가 쉽게 사용할 수 있으면서도 정확한 결과를 가지는 시스템이 요구된다. 본 논문에서는 XML 문서를 검색하기 위해 자연어로 질의를 입력하면 이를 XML 구조 검색을 위한 XQL 언어로 자동 변환해 주는 시스템을 제안한다. 제안한 시스템은 자연어를 이용하기 때문에 사용하기가 쉽고 XML 문서 구조가 변경되어도 쉽게 확장할 수 있는 장점을 가진다.

  • PDF

Extended DOM Interfaces for Spatial Operation in GML (GML문서의 공간연산 처리를 위한 DOM 인터페이스의 확장)

  • Kim, Ho-Seok;Park, Soon-Young;Chung, Won-Il;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1867-1870
    • /
    • 2002
  • OGC(Open GIS Consortium)에서는 GIS 분야에서 표준포맷을 이용한 공간데이터의 저장 및 상호운용성을 활성화하기 위하여 공간데이터를 XML(eXtensible Markup Language)로 인코팅하는 GML(Geographic Markup Language) 표준 메커니즘을 제안하였다. GML의 공간데이터를 이용하여 공간연산을 하기 위해서는 GML 문서에 접근하여 문서 내에 있는 공간객체를 다룰 수 있는 기능이 필요하다. GML의 기반인 GML에는 이러한 기능을 가진 표준인터페이스인 DOM(Document Obejct Model)이 있으나, GML문서 내의 공간객체에 대한 공간연산을 위한 인터페이스는 지원하지 않는다. 그래서 본 논문에서는 GML 문서의 공간데이터에 대한 공간연산을 위해 XML의 DOM 인터페이스를 확장하는 방안을 제안한다.

  • PDF

A Study on Improving the Effectiveness Using Term Reweighting for Information Retreival (정보 검색에서 용어 가중치 재부여를 이용한 성능 증진에 관한 연구)

  • 김영천;이재훈;문유미;이성주;박병권
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.9
    • /
    • pp.811-816
    • /
    • 2001
  • 정보 검색 시스템의 중요한 목적중의 하나는 단순히 사용자 질의를 만족하는 문서들의 집합을 검색하는 것이 아니라, 질의를 만족하는 정도에 따라 검색된 문서들에 순위를 부여함으로써 사용자들이 필요한 정보를 얻는데 소모되는 시간을 최소화시키는 것이다. 순수한 부울 검색 시스템은 검색 전략이 이진값에 근거하여 순위 구분 없이 연관/비연관 중의 하나로 결정된다. 딸서 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 본 논문에서는 높은 검색 효과를 제공하는 백터모델에서 용어 가중치 재부여를 이용한 정보검색 모델을 제안한다. 벡터모델에서 용어 가중치 재부여를 이용한 질의 확장 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

Research on a Development of Business Information for the Efficient Reuse of XML Libraries (XML 라이브러리의 효율적 재사용을 위한 비즈니스 정보 개발 방안)

  • Park, Chan-Gwon;Kim, Hyeong-Do
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2008.10b
    • /
    • pp.656-663
    • /
    • 2008
  • XML 기술의 발전에 따라 확장성 있는 ebXML(Electronic Business eXtensible Markup Language) 기반의 스키마 사용이 확장되면서 점차 기존 EDI 전자문서나 DTD(Document Type Definition) 구조로 되어 있는 전자문서를 XML 스키마 형태로 변환하거나 새롭게 개발해고 있는 추세이다. 한국전자거래진흥원에서는 XML 전자운세 개발 지침과 함께 XML 라이브러리를 개발하여 제시함으로써 표준 XML 전자문서의 개발을 지원하고 있다. XML 전자문서 개발 지침은 ebXML CCTS 기술규격에서 제시하고 있는 방법론을 준용하고, UN/CEFACT ATG 그룹에서 개발한 XML Naming & Design Rule 규격을 국내에 맞게 수정하여 적용하고 있다. 또한 XML 라이브러리는 전자문서 개발지침에 따라 사전에 정의하고 개발해 놓은 핵심 컴포넌트와 비즈니스 정보 개체들로 구성되어 있다. 하지만 전자문서개발 지침상의 일부 규칙들이 의미상 명확하지 않은 상태에서 개발자의 임의적 선택의 폭을 허용하거나 개체의 명명에 대한 뚜렷한 기준을 제시하지 못함으로써 핵심 컴포넌트와 비즈니스 정보 개체의 검색 및 재사용을 제한하고 라이브러리 유지보수를 어렵게 하고 있는 실정이다. 본 연구에서는 XML 전자문서 개발지침 상의 일부 규칙에 대한 문제점을 분석, 규칙을 구제화함으로써 개발자 중립적인 핵심 컴포넌트와 비즈니스 정보 개체의 개발을 지원하고 라이브러리 관리를 효율적으로 수행할 수 있는 방안을 제시하고자 한다.

  • PDF

Resampling Feedback Documents Using Overlapping Clusters (중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법)

  • Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.16B no.3
    • /
    • pp.247-256
    • /
    • 2009
  • Typical pseudo-relevance feedback methods assume the top-retrieved documents are relevant and use these pseudo-relevant documents to expand terms. The initial retrieval set can, however, contain a great deal of noise. In this paper, we present a cluster-based resampling method to select better pseudo-relevant documents based on the relevance model. The main idea is to use document clusters to find dominant documents for the initial retrieval set, and to repeatedly feed the documents to emphasize the core topics of a query. Experimental results on large-scale web TREC collections show significant improvements over the relevance model. For justification of the resampling approach, we examine relevance density of feedback documents. The resampling approach shows higher relevance density than the baseline relevance model on all collections, resulting in better retrieval accuracy in pseudo-relevance feedback. This result indicates that the proposed method is effective for pseudo-relevance feedback.

Construction of an Information Retrieval Test Collection and its Validation (정보검색 테스트 컬렉션 구축 및 유효성 평가)

  • Myaeng, Sung-Hyon;Jang, Dong-Hyun;Song, Sa-Kwang;Kim, Ji-Young;Lee, Seok-Hoon;Lee, Joon-Ho;Lee, Eung-Bong;Seo, Jeong-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.20-27
    • /
    • 1999
  • 본 논문은 정보검색 시스템 평가에 필요한 한국어 문서집합 구축과 적합 문서리스트(relevance file) 생성에 관한 기법을 문서 수집과정부터 평가작업까지 상세히 기술한다. 문서집합은 일반, 사회과학, 과학기술 분야에서 각각 4만 건으로 영역별로 균등히 구축하였으며, 질의 집합도 각 분야에 대해 10개씩 할당하여 총 30개의 질의 집합을 생성하였다. 또한 질의집합은 사용자의 수준을 고려하여 일반인, 영역 전문가, 중고등학생에 해당하는 질의를 생성함으로써 특정 영역, 특정 사용자에 독립적인 문서집합 및 질의집합을 구축하고자 하였다. 생성된 질의를 사용하여 여러 검색기에서 총 38가지의 방법으로 검색을 실시하였으며, 검색결과를 바탕으로 각 질의당 500개의 문서로 이루어진 후보 결과집합을 만든 후 이들을 대상으로 각 질의에 대한 문서의 적합성 평가를 실시하였다. 이 과정을 통해 생성된 적합문서 집합의 유효성을 보이기 위해 후보 문서 리스트 이외의 문서집합에서 적합문서가 존재할 가능성을 확인하였는데 그 방법으로 후보 리스트의 개수 증가에 따른 적합문서 개수의 변동 추세를 알아보았다. 현재 질의 개수를 50개로 확장하는 방향으로 테스트 컬렉션 구축에 대한 연구를 진행 중에 있으며, 일본 NACSIS와의 질의 교환을 통해 질의 개수를 확장할 뿐만 아니라 일본어 질의 또는 한국어 질의에 대해서 한국어 문서, 일본어 문서를 각각 검색할 수 있는 한일 교차언어 문서검색 환경을 구축하고 있다.

  • PDF