• 제목/요약/키워드: web Indexing

검색결과 113건 처리시간 0.029초

거리 제한을 이용한 색인 시스템 (An Index System using Restrictive Distance)

  • 박찬이;김상복
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.273-282
    • /
    • 2006
  • 한본 논문에서는 단어 가중기법에 거리 개념을 도입한 색인 기법을 제안한다. 본 색인 기법은 질의어와 문서를 대표하는 색인의 대부분은 복합명사 혹은 인접한 두개 이상의 명사 또는 명사구가 많으며 이들 명사간의 거리가 멀면 멀수록 색인으로 선택되는 비율이 줄어드는 점을 착안하여, 이를 기존의 가중치 부여 기법으로 색인어 후보를 선정하고, 후보들 간의 거리가 3어절 이내의 후보를 최종 색인으로 선정하였다. 이 방법을 이용하여 신문기사, 학술논문, 웹문서 등 100여종의 문서를 대상으로 실험한 결과 신문기사 92.03%, 학술논문 95%, 웹문서는 73..33%의 정확율을 보였다.

  • PDF

시멘틱 웹 데이터를 위한 키워드 인덱싱 기법 (Indexing Scheme for keyword-based Query Processing on Semantic Web)

  • 신혜연;김연희;정균락;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.51-55
    • /
    • 2006
  • 시맨틱 웹은 현재 웹의 확장된 개념으로 사람뿐만 아니라 컴퓨터 스스로가 데이터를 이해하고 처리할 수 있도록 정보에 의미를 부여하는 것이다. 시맨틱 웹 데이터를 기술하는 RDF를 통해 메타데이터를 표현하고 의미론적 추론이 가능하게 되었다. 따라서 기존에 일반 사용자가 쉽게 사용할 수 있는 키워드 검색 방법을 시맨틱 웹 데이터인 RDF/RDF 스키마에 적용함으로써 차세대 웹으로 인식되고 있는 시맨틱 웹을 일반 사용자도 쉽게 활용할 수 있도록 한다. 본 논문에서는 RDF 문서의 효율적인 검색을 위해 RDF 인스턴스와 RDF 스키마 정보를 저장하고, 키워드, 속성, 클래스 타입의 복합 조건 검색을 만족시키는 키워드 인덱스와 스키마 테이블 구조를 제안한다. 본 논문에서 제안한 구조는 다양한 조건들을 만족하는 리소스 정보의 빠르고 정확한 검색이 가능하도록 한다.

  • PDF

가중치를 가지는 웹문서 색인기법에 관한 연구 (A Study of Indexing Methods with weight-value of Web document)

  • 김종영;김철수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2459-2462
    • /
    • 2002
  • 검색된 문헌들에 대한 항해 시간을 줄이기 위해서 검색된 문헌들의 문헌 순위화가 필수적이다. 문헌 순위화를 위해서는 문헌 순위화를 위한 순위화 정보가 필요하다. 본 논문에서는 검색된 문헌들에 대한 순위화를 보다 효율적으로 수행하기 위한 정보를 제공하기 위하여 HTML 문서에 대한 색인 과정에서 다양한 가중치를 가지는 색이어 추출 방법에 관하여 연구하였다. 웹문서들은 태그로 이루어지며 중요한 색인어들은 특정 태그 속에 포함되어 있다는 것에 착안하여 색인어의 중요도에 영향을 줄 수 있는 태그를 선별하고, 선별된 태그들에 대해 휴리스틱 정보를 이용하여 중요도를 부여한 후 선별된 태그에 영향을 받는 문장들에서 추출된 색인어에 대하여 가중치를 부여하는 방법을 이용하였다. 색인어 추출을 형태소 분석기를 이용하였다. 색인어들이 다양한 가중치를 가지므로 검색 과정에서 검색된 문헌들에 대하여 효율적인 순위화가 가능하여 관련 문헌을 보다 빠르게 찾을 수 있는 환경을 제공할 수 있다.

  • PDF

키워드 기반 색인을 이용한 웹 이미지 검색 모델 (Web Image Retrieval Model using Keyword based Indexing)

  • 양재석;박정규;최영식;이긍해
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.721-724
    • /
    • 2003
  • 대부분의 이미지 검색은 질의 키워드를 이용하여 이루어지기 때문에 웹으로부터 수집한 이미지에는 미리 주제와 연관된 적절한 색인어를 부여하는 것이 필요하다. 웹 문서의 키워드를 이용하는 방법은 이미지와 연관성이 높은 것으로 간주되는 주변 키워드에 대해 각각의 연관도를 계산하여 색인어를 선정하는 방법이다. 본 논문에서는 이미지 주변의 키워드를 이용하여 이미지를 인덱싱한 후 유저 피드백을 통해 정확도를 높이는 웹 이미지 검색 모델을 제안한다.

  • PDF

XML 문서의 검색을 위한 효율적인 색인 기법과 질의 언어(TQL)의 설계 (Efficient Indexing Technique for Retrieval of an XML Document and Design of Query Language (TQL))

  • 이계준;신동욱;권택근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.57-59
    • /
    • 1999
  • 현재 WWW(World Wide Web), 사무 자동화 시스템(Office Information System), 전자 도서관(Digital Library) 등의 빠른 발전으로 인하여 정보가 기하급수적으로 증가하였다. 이러한 방대한 양의 정보를 처리하기 위하여 많은 인터넷 기반의 문서 표준들이 출현하였고, 대표적으로 XML(eXtensible Markup Language)이 차세대 인터넷 전자 문서의 표준으로 많은 곳에 응용되고 있다. 이에 따라 XML 문서의 정보들을 효율적이고 정확하게 저장하고 이용, 검색 할 수 있는 기능을 요구되어졌다. 현재 대부분의 연구들은 XML 문서에 대한 구조적인 정보만을 저장하고 검색하는 기능만을 지원 할 뿐 검색된 결과에 대한 재사용이나 재구성에 대한 기능의 제공은 미흡한 실정이다. 본 논문에서는 현재 검색기들이 제공하는 XML 문서에 대한 구조적인 검색 기능을 확장하여 XML 문서를 보다 효율적으로 검색하기 위하여 새로운 색인 기법을 제안하고, 데이터베이스 내에 저장된 XML문서에 대해 구조적인 검색과 이것을 바탕으로 문서를 재구성하고 재사용하는 기능을 수행할 수 있도록 새로운 질의어(TQL)을 설계하였다.

  • PDF

이미지정보 탐색을 위한 웹 검색엔진의 비교 평가 (Comparison and Evaluation of Web-based Image Search Engines)

  • 김효정
    • 정보관리연구
    • /
    • 제31권4호
    • /
    • pp.50-70
    • /
    • 2000
  • 인터넷으로 접근할 수 정보의 형태가 텍스트는 물론 이미지나 사운드까지 포함되면서 다양한 웹 이미지 검색엔진들이 개발되고 있다. 그러나 이 검색엔진들은 검색 특성과 효율성 면에서 상당한 차이를 보이고 있다. 이에 본 연구에서는 현재 개발된 이미지정보를 탐색하는 검색엔진들의 유형을 살펴보고 이들의 특성과 성능을 비교 평가하여 이용자로 하여금 정보요구에 적합한 이미지 검색엔진을 선택할 수 있도록 하는데 그 목적이 있다. 본 연구의 비교대상 검색엔진으로는 현재 가장 널리 쓰이고 있는 AV Photo Finder, Lycos MultiMedia, Amazing Picture Machina Image Surfer, WebSeek, Ditto를 선정하였다. 먼저 문헌연구를 통해 이미지 검색엔진의 평가기준을 마련하였다. 그리고 마련된 기준에 따라 각 검색엔진들의 데이터베이스 및 색인 방법, 검색 기능, 출력 형태, 이용자 인터페이스를 조사하였고 검색성능을 평가하기 위해 상대적 재현율과 정확률을 측정하였다. 그 결과 AV Photo Finder의 정확률이 가장 높았고 Ditto와 WebSeek의 정확률은 비교적 높은 편이었다. 그리고 Lycos MultiMedia와 Image Surfer의 정확률 값이 그 뒤를 이었으며 Amazing Picture Machine의 정확율이 가장 낮았다.

  • PDF

다양한 장서 접근을 위한 디지털 도서관의 프로토타입 구축 (A Digital Library Prototype for Access to Diverse Collections)

  • Choi Won-Tae
    • 한국문헌정보학회지
    • /
    • 제32권2호
    • /
    • pp.295-307
    • /
    • 1998
  • 본 논문은 다양한 유형으로 구성되어 있는 디지털 도서관의 장서가 어떠한 역할을 수행하는지를 나타내는 디지털 도서관의 구축에 관한 것이다. 본 연구에서 구축된 디지털도서관의 프로토타입은 디지털 리포지토리, 필터, 색인 및 검색, 클라이언트의 구조로 되어 있다. 디지털 리포지토리는 여러 가지 유형의 문서유형과 다양한 형태의 데이터베이스로 구성된다. 필터는 다양한 문헌의 포맷을 인식하고 문헌 각각의 조직적인 요소를 지능적으로 구분하는 역할을 수행한다. 본 시스템은 관계형 데이터베이스 관리 시스템인 ORACLE과 ConText를 이용하여 구성되었으며 새로운 객체의 분석 및 조직화, 색인기술의 적용을 용이하게 처리할 수 있다. 클라이언트는 여러 유형의 데이터 포맷(이미지, 오디오 비디오 SGML, PDF, KORMARC 등)의 디스플레이를 위한 브라우저, 뷰어이다. 이용자는 이러한 도구들을 이용하여 문헌을 구분하고 각각의 아이템을 브라우징하고 탐색할 수 있다. 본 연구의 탐색 인터페이스는 HTML과 WWW의 CGI를 이용하여 구현되었다.

  • PDF

인터넷 원거리출판의 응용과 PDF의 인쇄활용에 관한 연구 (A Study on the online of PDF Electronic Documents System)

  • 유영수;강영립;김병현;이광수
    • 한국인쇄학회:학술대회논문집
    • /
    • 한국인쇄학회 2001년도 국제학술발표회
    • /
    • pp.63-77
    • /
    • 2001
  • PDF(Portable Document Format) is a file format that Adobe advances postscritp technique and use in managing document information or electric publishing(internet, CD-ROM, DVD). PDF is a devised document type for being able to read and print anywhere, independent of OS, printer type, resolution, and the kind of computer etc. Because this includes a compressing function, it transfers document through a small size of file in internet or intranet. In addition, that is a file format has various advantages-sharing of information and transfering documents in on line or off line environment. In this paper, we developed electronic document system using PDF format. Electronic document system consists of filter, automatic indexing, special searching system and web server. The information used in this paper is database made using Zwon\`s DocuCom. The filter recognizes various kinds of document structure. And according to property of document, it produces ASCII output. In addition to processing various formats of document, the filter can extract keywords in documents of MS WORD, Excel, Powerpoint, PDF, CAD etc. This filter uses the structure of window printer drive and can extract the information for text, page, font type and size from relevant document. The automatic indexing recognizes the formatted tag of document form ASCII text produced by filter and extracts adequate keyword to structure and property of document. PDF electronic document systems proposed in this paper can be used in Internet, PC communication. Users can choose and read electronic documents by two ways. First, users can choose and read relevant books using PDF electronic document homepage. Second, users can use PDF integrated-search system. User can search after inputing keyword and choose reference field and type of data. But, now, PDF products of Adobe can\`t support the Korean character. If this problem is resolved, we thick that PDF applications system looks active. Although there is limited function in case of using Zwon DocuCom used in this study, we think that there isn\`t a great deal of difficulty in electronic document and building digital database.

  • PDF

이동 클라이언트에서 효율적인 XML 질의 처리를 위한 XML 조각 스트림 구성 기법 (Techniques of XML Fragment Stream Organization for Efficient XML Query Processing in Mobile Clients)

  • 류정훈;강현철
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.75-94
    • /
    • 2009
  • XML이 웹에서 데이터 교환의 표준으로 부각된 이래 전자 거래의 핵심 요소로 자리 잡으며 유비쿼터스 컴퓨팅 환경에서도 XML 데이터에 대한 효율적인 질의 처리에 관한 연구가 발하게 이루어지고 있다. 최근에는 XML 문서를 XML 조각으로 분할하여 스트리밍하고 이동 클라이언트에서 이를 수신하면서 질의 처리하는 기법이 제안되었다. XML 조각 스트림에대한 질의 처리는 스트림을 구성하는 각 조각의 전송 순서에 따라 평균 접근 시간에서 큰 차이를 보인다. 따라서 질의 성능을 높이기 위한 효과적인 XML 조각 스트림 구성 방법이 요구되며, 튜닝 시간의 단축을 통해 에너지 효율적인 질의 처리를 가능하게 하는 인덱싱도 요구된다. 본 논문에서는 사용자 질의 빈도와 질의 처리 시 접근되는 XML 조각의 크기 및 중복에 기반을 둔 XML 조각 스트림 구성 및 능동 XML 형식의 인덱스 구성을 제안한다. 구현 및 성능 실험 결과 본 논문에서 제시한 기법이 다양한 사용자 질의 집합 및 빈도에 대해 기존의 XML 조각 스트림 구성 기법에 비해 접근 시간 및 튜닝 시간 양면에서 모두 우수함을 확인하였다.

  • PDF

구조화된 비디오 문서의 데이터 모델 및 질의어와 색인 기법 (Data Model, Query Language, and Indexing Scheme for Structured Video Documents)

  • 류은숙;이규철
    • 한국멀티미디어학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-17
    • /
    • 1998
  • 비디오 정보는 전자 도서관이나 WWW 및 주문형 비디오 (VOD) 시스템과 같은 다양한 응용분야에서 중요한 요소로 부각되고 있다. 비디오 정보는 특성상 계층적으로 구조화된 문서 형태를 가지기 때문에 본 논문에서는 이를 “구조화된 비디오 문서”라 부른다. 본 논문에서는 구조화된 비디오 문서를 데이터베이스에 효율적으로 저장하고, 검색하기 위한 데이터 모델과 질의어 및 색인 기법을 제안한다. 구조화된 비디오 문서는 논리적인 계층 구조 특성을 지니기 때문에, 본 논문에서는 객체 지향 데이터 모델을 이용하여 비디오 문서를 복합 객체로 모델링하고, 이를 저장하기 위한 객체 타입들을 정의한다. 또한 본 논문에서는 비디오 데이터의 캡션이나 주석을 기반으로 한 내용 기반 검색과 비디오 문서의 논리적 구조를 기반으로 한 구조 기반 검색을 제공하며, 비디오 문서의 시공간 관계 연산을 이용한 검색도 지원한다. 그리고, 구조화된 비디오 문서의 효율적인 질의와 색인 공간의 오버헤드를 줄이기 위해 최적화된 역 색인 기법을 제시한다.

  • PDF