• 제목/요약/키워드: Index matching method

검색결과 122건 처리시간 0.022초

타임 워핑을 지원하는 효율적인 서브시퀀스 매칭 기법 (A Subsequence Matching Technique that Supports Time Warping Efficiently)

  • 박상현;김상욱;조준서;이헌길
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.167-179
    • /
    • 2001
  • This paper discusses an index-based subsequence matching that supports time warping in large sequence databases. Time warping enables finding sequences with similar patterns even when they are of different lengths. In earlier work, we suggested an efficient method for whole matching under time warping. This method constructs a multidimensional index on a set of feature vectors, which are invariant to time warping, from data sequences. For filtering at feature space, it also applies a lower-bound function, which consistently underestimates the time warping distance as well as satisfies the triangular inequality. In this paper, we incorporate the prefix-querying approach based on sliding windows into the earlier approach. For indexing, we extract a feature vector from every subsequence inside a sliding window and construct a multi-dimensional index using a feature vector as indexing attributes. For query precessing, we perform a series of index searches using the feature vectors of qualifying query prefixes. Our approach provides effective and scalable subsequence matching even with a large volume of a database. We also prove that our approach does not incur false dismissal. To verily the superiority of our method, we perform extensive experiments. The results reseal that our method achieves significant speedup with real-world S&P 500 stock data and with very large synthetic data.

  • PDF

이원성 기반 시계열 서브시퀀스 매칭의 인덱스 검색을 위한 최적의 기법 (An Optimal Way to Index Searching of Duality-Based Time-Series Subsequence Matching)

  • 김상욱;박대현;이헌길
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1003-1010
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 본 논문에서는 서브시퀀스 매칭을 위한 기존 기법의 인덱스 검색에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 새로운 방법을 제시한다. 제안된 기법은 서브시퀀스 매칭의 인덱스 검색 문제를 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 윈도우-조인의 빠른 처리를 위하여 제안된 기법에서는 서브시퀀스 매칭을 시작할 때 질의 시퀀스를 위한 R*-트리를 주기억장치 내에 구성한다. 또한, 제안된 기법은 데이터 시퀀스들을 위한 디스크 상의 R*-트리와 질의 시퀀스를 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 포함한다. 이 알고리즘은 데이터 시퀀스들을 위한 R*-트리 페이지들을 인덱스 단계의 착오 채택 없이 단 한번만 디스크로부터 액세스하므로 디스크 액세스 측면에서 최적의 기법임이 증명된다. 또한, 다양한 실험을 통한 성능 평가를 통하여 제안된 기법의 우수성을 정량적으로 규명한다.

집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법 (An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching)

  • 이주원;임효상
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.507-520
    • /
    • 2017
  • 집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다.

임의의 부분 노이즈제거를 지원하는 윤곽선 매칭의 색인 구축 방법 (An Index-Building Method for Boundary Matching that Supports Arbitrary Partial Denoising)

  • 김범수
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1343-1350
    • /
    • 2019
  • 윤곽선 이미지를 시계열로 변환하는 작업은 빠르고 상호작용 방식이 매우 중요한 대용량 이미지 데이터베이스에서도 윤곽선 매칭 수행을 가능 할 수 있게 만든다. 최근 연구에서는 윤곽선 이미지를 시계열 데이터로 변환하여 부분 노이즈제거를 고려하면서 빠르게 매칭을 수행하려는 시도가 있었다. 본 논문에서는 성능 향상을 위해 임의의 노이즈제거를 위해 임의의 모든 노이즈제거 매개 변수를 고려한 색인 구축 방법을 제안한다. 이는 가능한 모든 노이즈제거 매개 변수에 따른 부분 노이즈제거를 고려해야하기 때문에 어려운 문제이다. 본 논문에서는 다차원 색인인 R*-tree를 사용하여 모든 가능한 노이즈제거 매개 변수에 의한 최소 경계 영역(MBR)을 구성하여 효율적인 단일 생성 알고리즘을 제안한다. 다양한 실험 결과, 제안한 색인 기반 매칭 방법은 검색 성능을 최대 46.6 ~ 4023.6 배나 향상시킨다.

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

그레디언트 히스토그램을 이용한 정합 창틀 크기의 자동적인 결정 (Automatic Determination of Matching Window Size Using Histogram of Gradient)

  • 예철수;문창기
    • 대한원격탐사학회지
    • /
    • 제23권2호
    • /
    • pp.113-117
    • /
    • 2007
  • 본 논문에서는 1m 해상도의 위성 영상에서 스테레오 정합의 성능을 향상시키기 위해 그레디언트 히스토그램을 이용하여 정합 창틀의 크기를 자동적으로 결정하는 방법을 제안한다. 영상의 각 화소에 대해 4-neighbor에 위치한 화소의 수평 또는 수직 방향의 평균 그레디언트 값을 계산하여 평탄화 지수 영상(Flatness Index Image)을 생성한다. 강한 에지 화소는 높은 평탄화 지수를 가지며 반면에 비에지 화소의 경우에는 낮은 평탄화 지수를 가진다. 평탄화 지수 영상의 히스토그램을 이용하여 각 화소의 에지 또는 비에지 화소 여부를 결정하는 평탄화 임계값을 구한다. 각 화소의 평탄화 지수가 평탄화 임계값보다 크면 에지화소로, 작으면 비에지 화소로 분류한다. 초기 정합 창틀 내에 존재하는 비에지 화소의 비율이 작으면 밝기 값 변화가 적은 영역으로 판정하고 정합 창틀의 크기를 더 크게 설정하고 이 과정을 정합 창틀이 최대 크기에 도달할 때까지 반복적으로 수행한다. IKONOS 스테레오 위성영상을 실험영상으로 사용하였으며 고정크기의 정합 창틀을 이용한 방법에 비해 향상된 정합 결과를 얻었다.

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.

시계열 이동평균 변환을 이용한 노이즈 제어 윤곽선 이미지 매칭 (Noise Control Boundary Image Matching Using Time-Series Moving Average Transform)

  • 김범수;문양세;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.327-340
    • /
    • 2009
  • 본 논문에서는 윤곽선 이미지 매칭에서 노이즈 제거 정도를 제어하기 위해 시계열 매칭의 이동평균 변환을 이용한다. 이동평균 변환을 윤곽선 이미지 매칭에 적용하게 된 동기는 이동평균 변환이 시계열의 노이즈를 감소시키므로, 이를 사용하면 윤곽선 이미지 매칭에서도 노이즈 제어 효과를 얻을 수 있을 것이라는 직관에 기반한다. 본 논문에서는 우선 윤곽선 이미지 매칭에 이동평균 변환을 적용한 $\kappa$-계수 이미지 매칭($\kappa$-order image matching)을 제안한다. 제안한 $\kappa$-계수 이미지 매칭은 윤곽선 이미지가 변환된 시계열에 $\kappa$-이동평균 변환을 적용하여 시계열(이미지) 간의 유사성을 판단한다. 다음으로, 대용량 이미지 데이터베이스를 대상으로 $\kappa$-계수 이미지 매칭을 수행하기 위한 인덱스 기반 매칭 방법을 제안하고, 그 정확성을 정형적으로 증명한다. 또한, 계수 $\kappa$와 매칭 결과와의 관계를 정형적으로 분석하고, 이에 기반하여 계수 $\kappa$를 변화시키면서 노이즈 제거 정도를 제어하는 방안을 제시한다. 실험 결과, $\kappa$-계수 이미지 매칭이 노이즈 제거 효과를 가짐을 확인하였으며, 제안한 인덱스 기반 매칭 방법은 순차 스캔에 비해 수 배 에서 수십 배 빠른 성능을 보이는 것으로 나타났다.

시계열 데이터베이스에서 DFT-기반 다차원 인덱스를 위한 물리적 데이터베이스 설계 (Physical Database Design for DFT-Based Multidimensional Indexes in Time-Series Databases)

  • 김상욱;김진호;한병일
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1505-1514
    • /
    • 2004
  • 시퀀스 매칭은 시계열 데이터베이스로부터 질의 시퀀스와 변화의 추세가 유사한 데이터 시퀀스들을 검색하는 연산이다. 기존의 대부분의 연구에서는 효과적인 시퀀스 매칭을 위하여 다차원 인덱스를 사용하며, 데이터 시퀀스를 이산 푸리에 변환(Discrete Fourier Transform: DFT)한 후, 단순히 앞의 두 개 내지 세 개의 DFT 계수만을 구성 속성 (organizing attributes)으로 사용함으로써 고차원의 경우 발생하는 차원 저주(dimensionality curse) 문제를 해결한다. 본 논문에서는 기존의 단순한 기법이 가지는 성능 상의 문제점들을 지적하고, 이러한 문제점들을 해결하는 최적의 다차원 인덱스 구성 기법을 제안한다. 제안된 기법은 대상이 되는 시계열 데이터베이스의 특성을 사전에 분석함으로써 변별력이 뛰어난 요소들을 다차원 인덱스의 구성 속성으로 선정하며, 비용 모델(cost model)을 기반으로 한 시퀀스 매칭 비용의 추정을 통하여 다차원 인덱스에 참여하는 최적의 구성 속성의 수를 결정한다. 제안된 기법의 우수성을 규명하기 위하여 실험을 통한기존 기법과의 성능 비교를 수행하였다 실험 결과에 의하면, 제안된 기법은 기존의 기법에 비교하여 매우 큰 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

Comparison of Fusion Methods for Generating 250m MODIS Image

  • Kim, Sun-Hwa;Kang, Sung-Jin;Lee, Kyu-Sung
    • 대한원격탐사학회지
    • /
    • 제26권3호
    • /
    • pp.305-316
    • /
    • 2010
  • The MODerate Resolution Imaging Spectroradiometer (MODIS) sensor has 36 bands at 250m, 500m, 1km spatial resolution. However, 500m or 1km MODIS data exhibits a few limitations when low resolution data is applied at small areas that possess complex land cover types. In this study, we produce seven 250m spectral bands by fusing two MODIS 250m bands into five 500m bands. In order to recommend the best fusion method by which one acquires MODIS data, we compare seven fusion methods including the Brovey transform, principle components algorithm (PCA) fusion method, the Gram-Schmidt fusion method, the least mean and variance matching method, the least square fusion method, the discrete wavelet fusion method, and the wavelet-PCA fusion method. Results of the above fusion methods are compared using various evaluation indicators such as correlation, relative difference of mean, relative variation, deviation index, peak signal-to-noise ratio index and universal image quality index, as well as visual interpretation method. Among various fusion methods, the local mean and variance matching method provides the best fusion result for the visual interpretation and the evaluation indicators. The fusion algorithm of 250m MODIS data may be used to effectively improve the accuracy of various MODIS land products.