• Title/Summary/Keyword: 인덱싱 기법

Search Result 256, Processing Time 0.033 seconds

An Efficient Method for Detecting Duplicated Documents in a Blog Service System (블로그 서비스 시스템을 위한 효과적인 중복문서의 검출 기법)

  • Lee, Sang-Chul;Lee, Soon-Haeng;Kim, Sang-Wook
    • Journal of KIISE:Databases
    • /
    • v.37 no.1
    • /
    • pp.50-55
    • /
    • 2010
  • Duplicate documents in blog service system are one of causes that deteriorate both of the quality and the performance of blog searches. Unlike the WWW environment, the creation of documents is reported every time in blog service system, which makes it possible to identify the original document from its duplicate documents. Based on this observation, this paper proposes a novel method for detecting duplication documents in blog service system. This method determines whether a document is original or not at the time it is stored in the blog service system. As a result, it solves the problem of duplicate documents retrieved in the search result by keeping those documents from being stored in the index for the blog search engine. This paper also proposes three indexing methods that preserve an accuracy of previous work, Min-hashing. We show most effective indexing method via extensive experiments using real-life blog data.

k-Bitmap Clustering Method for XML Data based on Relational DBMS (관계형 DBMS 기반의 XML 데이터를 위한 k-비트맵 클러스터링 기법)

  • Lee, Bum-Suk;Hwang, Byung-Yeon
    • The KIPS Transactions:PartD
    • /
    • v.16D no.6
    • /
    • pp.845-850
    • /
    • 2009
  • Use of XML data has been increased with growth of Web 2.0 environment. XML is recognized its advantages by using based technology of RSS or ATOM for transferring information from blogs and news feed. Bitmap clustering is a method to keep index in main memory based on Relational DBMS, and which performed better than the other XML indexing methods during the evaluation. Existing method generates too many clusters, and it causes deterioration of result of searching quality. This paper proposes k-Bitmap clustering method that can generate user defined k clusters to solve above-mentioned problem. The proposed method also keeps additional inverted index for searching excluded terms from representative bits of k-Bitmap. We performed evaluation and the result shows that the users can control the number of clusters. Also our method has high recall value in single term search, and it guarantees the searching result includes all related documents for its query with keeping two indices.

A New Indexing Technique for Processing Nearest Neighbor Queries in High Dimensional Space (고차원 공간에서 최근접 질의를 효과적으로 처리하기 위한 새로운 인덱싱 기법)

  • ;Charu Aggarwal;Philip S. Yu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.83-85
    • /
    • 2000
  • 최근접 질의(nearest neighbor query)는 멀티미디어 데이터베이스에서 주어진 질의 객체와 가장 유사한 객체를 찾기 위한 매우 중요한 연산으로 사용된다. 대부분의 최근접 질의 처리 기법들은 객체의 효과적인 인덱싱을 위하여 다차원 인덱스(multidimensional index)를 사용한다. 그러나 N차원 시각형 혹은 원을 사용하여 객체 클러스터의 캡슐을 표현하는 기존의 다차원 인덱스들은 차원 수가 높아짐에 따라 검색 성능이 크게 떨어진다. 본 논문에서는 이러한 문제를 해결하는 새로운 인덱스 구조를 제시하고, 이를 이용하는 최근접 질의 처리 방안을 제안한다. 또한, 다양한 실험에 의한 성능 평가를 통하여 제안된 기법의 우수성을 검증한다.

  • PDF

Path Similarity Calculation for Clustering of XML Documents (XML 문서 클러스터링을 위한 경로 유사도의 계산)

  • Lee, Bum-Suk;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.325-328
    • /
    • 2006
  • 최근 DTD (Document Type Descriptor)를 포함하고 있지 않은 XML 문서의 사용이 증가하고 있다. 따라서 서로 다른 구조를 갖는 많은 양의 XML 문서를 관계형 DBMS에 저장하거나, 인덱스를 이용하여 매핑하는 등 보다 효율적으로 관리하기 위한 다양한 인덱싱 기법에 대한 연구가 진행되고 있다. 이러한 연구들 중 경로 비트맵 인덱싱 기법은 경로 구성 유사도를 기반으로 3차원 비트맵 클러스터를 생성하고, 클러스터 단위의 검색을 수행함으로서 빠른 검색 속도를 보여주었다. 그러나 이 기법은 비교하려는 두 경로 중 항상 짧은 경로가 기준 경로가 되는 한계점과, 같은 노드 구성을 가지는 두 경로에서도 노드의 위치에 따라 그 유사도가 크게 변하는 등의 여러 문제점을 가지고 있었다. 이러한 문제점을 해결하고, 정확한 클러스터링을 수행하기 위해서는 합리적인 경로 유사도 계산식이 필요하게 되었다. 본 논문에서는 기존 방법의 문제점을 해결하고, 보다 정확한 클러스터링을 수행할 수 있는 새로운 경로 유사도 계산식을 제안한다.

  • PDF

A Study on Access Control of the Multimedia Text Data Retrieval (멀티미디어 텍스트 데이터 검색을 위한 접근기법 연구)

  • Yang, Chang-Ho;Jung, Yoon-Ki;Lee, Bae-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.95-98
    • /
    • 2003
  • 컴퓨터와 통신의 급속한 발전으로 인하여 하루에도 수십 기가바이트의 정보가 매일매일 업데이트 되고 있다. 하지만 이러한 유용한 정보의 증가에도 불구하고 우리가 사용의 어려움과 검색시간이 길어진다면 엄청난 정보의 낭비를 초래할 것이다. 멀티미디어 정보에 대한 접근을 데이터의 특성상 매우 신속해야 하므로 검색시간 또한 최소화되어야 한다. 하지만 대용량의 멀티미디어 데이터베이스에서 데이터 접근은 막대한 시간을 낭비할 소지가 다분하다. 멀티미디어 데이터 접근은 데이터베이스를 구성하는 여러 미디어에 대해 생성되는 메타데이터에 기본을 둔다. 또한 사용되는 인덱스 구조는 미디어, 메타데이터, 질의 형식에 기반을 두고 생성된다. 즉 인덱싱의 기법에 따라 탁월한 검색성능의 향상을 보일 수 있다. 본 논문에서는 멀티미디어 데이터 중 텍스트 데이터 접근에 이용 가능한 여러 가지 인덱싱 기법들을 살펴보고 그에 따른 적용방법들을 제안한다.

  • PDF

A Suffix Tree Approach for Efficient XML Path Indexing (접미어 트리 구조를 이용한 효율적인 XML 경로 인덱싱)

  • 이덕형;원정임;노관준;윤지희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.88-90
    • /
    • 2002
  • 최근 인터넷 상에서 XML 문서의 사용이 급속도로 보편화, 일반화됨 따라 정보 검색을 위한 다양한 XML 질의 언어가 제안되고 있다. XML 질의의 공통 특징으로서 ‘*’ 문자 등을 사용한 정규화 경로식(regular path expression)에 의한 손쉬운 구조정보 검색 기능을 들 수 있다. 본 논문에서는 접미어 트리(suffix tree)를 이용한 새로운 경로 인덱싱 기법을 제안한다. 제안하는 기법에서는 XML 문서상의 각 경로를 축약된 유일한 문자열로 인코딩하며, 인코딩 된 각 문자열의 모든 접미어 정보를 인덱스에 저장한다. 본 기법은 일반 정규화 경로식을 포함하는 구조질의를 매우 효율적으로 처리하며, 또한 경로 정보가 부정확하게 기술된 경우에도 관사 질의 처리를 효과적으로 처리할 수 있다.

  • PDF

Heterogeneous Sensor Search, Selection and Indexing method for Internet of Things (사물인터넷을 위한 이종의 센서 탐색 및 선택 그리고 인덱싱 기법)

  • Park, Yechan;Jung, Soon-gyo;Yeom, Sanggil;Son, Min han;Choo, Hyunseung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.337-338
    • /
    • 2015
  • 사물인터넷은 우리 주변에 있는 사물들이 인터넷을 통해 연결되어 다양한 서비스를 제공할 수 있는 기술로 많은 관심을 받고 있다. 각각의 센서들은 한정된 자원을 가지고 통신을 해야 하기 때문에 효율적인 에너지 소비와 신속한 정보전달이 중요하다. 이를 위해서 이종의 센서들의 정보를 찾기 위해 빠른 경로를 선택하고 탐색하는 기법을 제안한다. 제안기법은 효율적인 정보요청을 위한 인덱싱을 사용하여 이를 통해 빠르게 정보를 병합하는 방법으로 기존의 데이터 병합 방법보다 더 빠르고 효율적으로 병합을 할 수 있을 것으로 기대한다.

Distance-based Indexing Strategy for Moving Objects Database (이동 객체 데이터베이스를 위한 거리기반 인덱싱 전략)

  • 김승현;송문배;남성헌;황종선;손진곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.196-198
    • /
    • 2002
  • 이동 기술의 발전으로 위치와 이동 패턴이 연속적으로 변화하는 객체가 증가하였다. 시간에 따라 객체가 이동하면서 그 위치와 모양이 연속적으로 변화하는 것을 이동 객체라 한다. 과거의 DBMS는 연속적으로 이동 정보가 변화한다. 이러한 정보를 저장하는 매체인 이동 객체 데이터베이스의 갱신 횟수는 매우 중요하다. 본 논문에서 객체는 일반적으로 일정한 패턴으로 이동한다고 가정한다. 이러한 객체의 일정한 이동 패턴을 이용하여, 이동 객체 데이터베이스의 갱신 횟수를 최소화하면서, 효과적으로 인덱싱 하는 전략을 제시한다. 또한 질의에 대한 객체 위치의 오차를 최소화하여 반환해 주는 질의 처리 기법을 제안한다.

  • PDF

Rate Dependent Internet Distribution of Digital Video Using Video Indexing technique (비디오 인덱싱 기술을 활용한 동영상의 등급별 인터넷 배포)

  • 박경미;김영봉
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.319-321
    • /
    • 2003
  • 웹 상에서 제공되는 영화 서비스는 사용자에게 시간과 공간을 초월하여 서비스를 받을 수 있다는 매력을 가지고 있다. 이러한 영화 서비스는 대부분 동영상 전체 내용에 대해 사용자 연령별로 등급을 나누어 서비스되거나 무차별 서비스가 되고 있다. 본 논문에서는 비디오 인덱싱 기술과 필터링 기법을 접목하여 하나의 동영상을 각 장면의 내용에 따라 사용자 연령별 차별화 된 서비스를 함으로써 영화 동영상에 대한 활용도를 높일 수 있는 방법을 제안하였다.

  • PDF

Energy Keys Based Scalable Indexing Schemes of Large Color Image Archives (에너지 키에 기초한 대형 칼라 영상 기록물의 계층적 인덱싱 기법)

  • 박대철;강종묵
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.225-228
    • /
    • 2001
  • We propose a method which has effective scalable indexing characteristics of large color image archives. Color key and energy key method which uses provides high performance of fast accessing and has almost constant query response time over DH size.

  • PDF