타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색

Index-based Searching on Timestamped Event Sequences

  • 박상현 (연세대학교 컴퓨터과학과) ;
  • 원정임 (연세대학교 컴퓨터과학과) ;
  • 윤지희 (한림대학교 정보통신공학부) ;
  • 김상욱 (한양대학교 정보통신학부)
  • 발행 : 2004.10.01

초록

시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

It is essential in various application areas of data mining and bioinformatics to effectively retrieve the occurrences of interesting patterns from sequence databases. For example, let's consider a network event management system that records the types and timestamp values of events occurred in a specific network component(ex. router). The typical query to find out the temporal casual relationships among the network events is as fellows: 'Find all occurrences of CiscoDCDLinkUp that are fellowed by MLMStatusUP that are subsequently followed by TCPConnectionClose, under the constraint that the interval between the first two events is not larger than 20 seconds, and the interval between the first and third events is not larger than 40 secondsTCPConnectionClose. This paper proposes an indexing method that enables to efficiently answer such a query. Unlike the previous methods that rely on inefficient sequential scan methods or data structures not easily supported by DBMSs, the proposed method uses a multi-dimensional spatial index, which is proven to be efficient both in storage and search, to find the answers quickly without false dismissals. Given a sliding window W, the input to a multi-dimensional spatial index is a n-dimensional vector whose i-th element is the interval between the first event of W and the first occurrence of the event type Ei in W. Here, n is the number of event types that can be occurred in the system of interest. The problem of‘dimensionality curse’may happen when n is large. Therefore, we use the dimension selection or event type grouping to avoid this problem. The experimental results reveal that our proposed technique can be a few orders of magnitude faster than the sequential scan and ISO-Depth index methods.hods.

키워드

참고문헌

  1. M-S Chen, J. Han, and Philip S. Yu, 'Data Mining : An Overview from a Database Perspective,' IEEE Transactions on Knowledge and Data Engineering, 8(6) : pp.866-883, 1996 https://doi.org/10.1109/69.553155
  2. S. Park, D Lee, and W. Chu, 'Fast Retrieval of Similar Subsequences in Long Sequence Databases,' In Proc. 3rd IEEE Knowledge and Data Engineering Exchange Workshop (IEEE KDEX) , pp. 60-67, 1999 https://doi.org/10.1109/KDEX.1999.836610
  3. L. Hammel and J. Patel, 'Searching on the Secondary Structure of Protein Sequences,' In Proc. 28th Int'l Conf. on Very Large Data Bases, pp. 634-645, 2002
  4. H. Wang, C. Perng, W. Fan, S. Park, and P. Yu, 'Indexing Weighted Sequences in Large Databases,' In Proc. 19th Irit'l Conf. on Data Engineering, pp. 63-74, 2003 https://doi.org/10.1109/ICDE.2003.1260782
  5. G. A. Stephen, String Searching Algorithms, World Scientific Publishing, 1994
  6. K. Chakrabarti and S. Mehrotra, 'The Hybrid Tree : An Index Structure for High Dimensional Feature Spaces,' Proc. the 15th International Conference on Data Engineering, pp.440-447, 1999 https://doi.org/10.1109/ICDE.1999.754960
  7. R. Agrawal, C. Faloutsos, and A. Swami, 'Efficient Similarity Search in Sequence Databases,' In Proc. Int'l. Conference on Foundations of Data Organization and Algorithms, FODO, pp. 69-84, 1993
  8. C. Faloutsos and K. Lin, 'FastMap: A Fast Algorithm for Indexing, Data-Mining and Visualization of Traditional and Multimedia Datasets,' In Proc. Int'l. Conf. on Management of Data, ACM SIGMOD, pp. 163-174, 1995 https://doi.org/10.1145/223784.223812
  9. N. Beckmann, H. Kriegel, R. Schneider, and B. Seeger, 'The R-tree: An Efficient and Robust Access Method for Points and Rectangles,' In Proc. Int'l conf. on Management of Data, ACM SIGMOD, pp. 322-331, 1990
  10. S. Berchtold, D. A. Keim, and H.-P. Kriegel, 'The X-tree: An Index Structure for High-Dimensional Data,' In Proc Int'l. Conf. on Very Large Data Bases, VLDB, pp. 28-39, 1996
  11. C. Shannon and W. Weaver, The Mathematical Theory of Communication, University of Illinois Press, 1964