• 제목/요약/키워드: subsequence matching

검색결과 44건 처리시간 0.028초

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭 : 관찰, 최적화, 성능 결과 (Subsequence Matching Under Time Warping in Time-Series Databases : Observation, Optimization, and Performance Results)

  • 김만순;김상욱
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1385-1398
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 먼저, 사전 실험을 통하여 기존의 기본적인 처리 방식인 Naive-Scan의 성능 병목이 CPU 처리 과정에 있음을 지적하고, Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 제안된 기법을 기존의 타임 워핑 하의 서브시퀀스 매칭 기법인 LB-Scan과 ST-Filter의 후처리 정량적으로 검증한다. 실험 결과에 의하면, 기존의 타임 워핑 하의 서비시퀀스 매칭을 위한 모든 기법들이 제안된 최적화 기법에 의하여 성능이 개선되는 것으로 나타났다. 특히, Nsive-Scan은 최적화 기법의 적용 전에는 가장 떨어지는 성능을 보였으나, 최적화 기법의 적용 후에는 모든 경우에서 ST-Filter나 LB-Scan을 사용한 경우보다 더 좋은 성능을 보였다. 이것은 성능 병목인 CPU 처리 과정을 최적화함으로써 기존 기법들인 Naive-Scan, LB-Scan, ST-Filter 간의 처리 성능 상의 순위 역전 현상이 발생하였음을 보이는 매우 중요한 결과이다.

시퀀스 데이터베이스에서 타임 워핑을 지원하는 효과적인 인덱스 기반 서브시퀀스 매칭 (An Index-Based Approach for Subsequence Matching Under Time Warping in Sequence Databases)

  • 박상현;김상욱;조준서;이헌길
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.173-184
    • /
    • 2002
  • 본 논문에서는 대용량 시퀀스 데이터베이스에 타임 워핑을 지원하는 인덱스 기반 서브시퀀스 매칭에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법을 제안된바 있다. 이 기법은 데이터 시퀀스들로부터 타임 워핑에 영향을 받지 않는 특징 벡터들의 집합을 대상으로 인덱스를 구성한다. 또한, 특징 공간상에서의 필터링을 위하여 삼각형 부등식을 만족하는 타임 워핑 거리의 하한 함수를 사용한다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우를 기반으로 하는 접두어-질의 방법을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여 각 슬라이딩 윈도우와 대응되는 서브 시퀀스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 다수의 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀀스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명한다. 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 따르면, 제안된 기법은 실제 S&P 500 주식 데이터와 대용량의 생성 데이터 모두에 대하여 큰 성능 개선 효과를 보이는 것으로 나타났다.

시계열 데이터베이스에서의 서브시퀀스 매칭을 위한 윈도우 구성의 일반화 (Generalization of Window Construction for Subsequence Matching in Time-Series Databases)

  • 문양세;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.357-372
    • /
    • 2001
  • 본 논문에서는 서브시퀀스 매칭에서 윈도우 구성의 일반화 개념을 제안하고, 이에 기반한 새로운 서브시퀀스 매칭 방법인 GeneralMatch를 제안한다. 기존 연구인 Faloutsos 등의 방법 (간단히 FRM이라 한다)은 점 여과 효과의 결여로 인해 많은 착오해답을 발생시켰다. 본 저자들의 DualMatch는 점 여과 효과를 발휘하여 성능을 크게 향상시켰으나, 주어진 최소 질의 시퀀스 길이에 대해 최대 윈도우 크기가 작은(FRM의 1/2) 문제가 있었다. GeneralMatch는 DualMatch를 더욱 개선한 방법으로서, 두 방법의 장점을 모두 취한다. 즉, FRM과 같이 큰 윈우를 사용할 수 있으며, 동시에 DualMatch와 같이 점 여과 효과를 발휘할 수 있다. GeneralMatch는 데이터 시퀀스를 J-슬라이딩 윈도우(일반화된 슬라이딩 윈도우)로 나누고, 질의 시퀀스를 J-디스조인트 윈도우(일반화된 디스조인트 윈도우)로 나누는 방법을 사용한다. 본 논문에서는 GerneralMatch의 정확성, 즉 GeneralMatch가 착오기각이 발생하지 않음을 증명한다. 또한, 주어진 최소 질의 시퀀스 길이에 대해 GeneralMatch가 바르게 동작하기 위한 최대 윈도우 크기가 있음을 증명한다. 그리고, 페이지 액세스 횟수를 최소로 하는 J 값의 결정 방법을 제안하다. 실제 주식 데이터에 대한 실험 결과, GeneralMatch는 낮은 선택률 범위($10^{-6}~10^{-4}$)에서 DualMatch에 비해 평균 114%, FRM에 비해 998% 성능을 향상시켰으며, 높은 선택률 범위($10^{-6}~10^{-4}$)에서도 DualMatch에 비해 평균 46%, FRM에 비해 평균 65% 성능을 향상시켰다.

  • PDF

시계열 서브시퀀스 매칭의 윈도우 크기 효과 : 정량적 성능 연구 (Window Size Effect on Time-Series Subsequence Matching: A Qualitative Performance Study)

  • 고현길;정인범;김상욱
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.371-374
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 기존에 제안된 서브시퀀스 매칭 기법인 FRM과 Dual-Match를 대상으로 다양한 실험을 통하여 윈도우 크기 효과를 정량적으로 분석한다. 또한, 이러한 분석 결과를 기반으로 서브시퀀스 매칭 처리의 성능 개선을 위한 향후의 연구 방향을 제시한다.

  • PDF

시계열 데이터베이스에서의 모양 기반 서브시퀀스 매칭 (Shape-Based Subsequence Matching in Time-Series Databases)

  • 김태훈;윤지희;김상욱;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.178-180
    • /
    • 2001
  • 모양 기반 검색은 주어진 질의 시퀸스의 요소 값에 상관없이, 모양이 유사한 시퀸스 혹은 부분시퀸스를 찾는 연산이다. 본 논문에서는 시프트, 스케일링, 타임 워핑 등 동일 모양 변환의 다양한 조합을 지원할 수 있는 새로운 모양 기반유사 검색 모델을 제안하고, 효과적인 유사 부분 시퀸스 검색을 위한 인덱싱과 질의 처리 방법을 제안한다. 또한 실세계의 증권데이터를 이용한 다양한 실험 결과에 의하여, 본 방식이 질의 시퀸스와 유사한 모양의 모든 서브시퀸스를 성공적으로 찾는 것은 물론 순차검색 방법과 비교하여 매우 빠른 검색 효율을 가짐을 보인다.

  • PDF

다수의 MBR을 이용한 시계열 서브시퀀스 매칭 연구 (A Study on Time-Series Subsequence Matching using Multi MBRs)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1068-1069
    • /
    • 2012
  • 시계열 데이타는 일정 시간 간격으로 측정한 값의 시퀀스를 뜻하는데, 사용자에 의해 주어진 질의 시퀀스와 유사한 데이타 시퀀스를 검색하는 방법을 유사 시퀀스 매칭이라고 한다. 본 논문에서는 유사 시퀀스 매칭 시, 질의 시퀀스로 MBR을 구성할 때 한 개의 MBR이 아닌 다수의 MBR로 구성하는 방법을 제안하였다. 다수의 MBR로 구성하여 질의 처리를 하면 질의 시퀀스의 길이가 길 경우 적은 비용으로 질의 처리를 수행할 수 있다.

A Pattern-based Query Strategy in Wireless Sensor Network

  • Ding, Yanhong;Qiu, Tie;Jiang, He;Sun, Weifeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권6호
    • /
    • pp.1546-1564
    • /
    • 2012
  • Pattern-based query processing has not attracted much attention in wireless sensor network though its counterpart has been studied extensively in data stream. The methods used for data stream usually consume large memory and much energy. This conflicts with the fact that wireless sensor networks are heavily constrained by their hardware resources. In this paper, we use piece wise representation to represent sensor nodes' collected data to save sensor nodes' memory and to reduce the energy consumption for query. After getting data stream's and patterns' approximated line segments, we record each line's slope. We do similar matching on slope sequences. We compute the dynamic time warping distance between slope sequences. If the distance is less than user defined threshold, we say that the subsequence is similar to the pattern. We do experiments on STM32W108 processor to evaluate our strategy's performance compared with naive method. The results show that our strategy's matching precision is less than that of naive method, but our method's energy consumption is much better than that of naive approach. The strategy proposed in this paper can be used in wireless sensor network to process pattern-based queries.

Thai Classical Music Matching Using t-Distribution on Instantaneous Robust Algorithm for Pitch Tracking Framework

  • Boonmatham, Pheerasut;Pongpinigpinyo, Sunee;Soonklang, Tasanawan
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1213-1228
    • /
    • 2017
  • The pitch tracking of music has been researched for several decades. Several possible improvements are available for creating a good t-distribution, using the instantaneous robust algorithm for pitch tracking framework to perfectly detect pitch. This article shows how to detect the pitch of music utilizing an improved detection method which applies a statistical method; this approach uses a pitch track, or a sequence of frequency bin numbers. This sequence is used to create an index that offers useful features for comparing similar songs. The pitch frequency spectrum is extracted using a modified instantaneous robust algorithm for pitch tracking (IRAPT) as a base combined with the statistical method. The pitch detection algorithm was implemented, and the percentage of performance matching in Thai classical music was assessed in order to test the accuracy of the algorithm. We used the longest common subsequence to compare the similarities in pitch sequence alignments in the music. The experimental results of this research show that the accuracy of retrieval of Thai classical music using the t-distribution of instantaneous robust algorithm for pitch tracking (t-IRAPT) is 99.01%, and is in the top five ranking, with the shortest query sample being five seconds long.

시계열 데이타베이스의 인덱스 보간법을 기반으로 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘 (An Index-Based Subsequence Matching Algorithm Supporting Normalization Transform in Time-Series Databases)

  • 노웅기;감상욱;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.152-154
    • /
    • 2000
  • 본 논문에서는 시계열 데이터베이스에서 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘을 제안한다. 정규화 변환은 시계열 데이터간의 절대적인 유클리드 거리에 관계없이, 구성하는 값들의 상대적인 변화 추이가 유사한 패턴을 갖는 시계열 데이터를 검색하는 데에 유용하다. 제안된 알고리즘은 몇 개의 질의 시퀀스 길이에 대해서만 각각 인덱스를 생성한 후, 이를 이용하여 모든 가능한 길이의 질의 시퀀스에 대해서 탐색을 수행한다. 이때, 착오 기각이 발생하지 않음을 증명한다. 본 논문에서는 이와 같이 인덱스가 요구되는 모든 경우 중에서 적당한 간격의 일부에 대해서만 생성된 인덱스를 이용한 탐색 기법을 인덱스 보간법이라 부른다. 질의 시퀀스의 길이 256~512 중 다섯 개의 길이에 대해 인덱스를 생성하여 실험한 결과, 탐색 결과를 선택률이 10-5일 때 제안된 알고리즘의 탐색 성능이 순차 검색에 비하여 평균 14.6배 개선되었다.

  • PDF

인덱스 보간법을 이용한 효율적인 시계열 서브시퀀스 매칭 (Efficient Time-Series Subsequence Matching Using Index Interpolation)

  • 임승환;고현길;노웅기;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.31-34
    • /
    • 2004
  • 서브시퀀스 매칭은 시계열 데이터베이스에서 질의 시퀀스와 유사한 서브시퀀스틀 찾아내는 연산이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하기 때문에, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하되는 문제점을 갖고 있다. 본 논문에서는 이러한 기존 알고리즘의 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 서브시퀀스 매칭 비용 공식을 산출하고, 이 비용 공식에 기반하여 제안된 기법의 성능을 최적화 하도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 정량적으로 검증한다.

  • PDF