DOI QR코드

DOI QR Code

A Dual Processing Load Shedding to Improve The Accuracy of Aggregate Queries on Clustering Environment of GeoSensor Data Stream

클러스터 환경에서 GeoSensor 스트림 데이터의 집계질의의 정확도 향상을 위한 이중처리 부하제한 기법

  • Ji, Min-Sub (Dept. of Computer & Information Engineering, Inha University) ;
  • Lee, Yeon (Dept. of Computer & Information Engineering, Inha University) ;
  • Kim, Gyeong-Bae (Dept. of Computer Education, Seowon University) ;
  • Bae, Hae-Young (Dept. of Computer & Information Engineering, Inha University)
  • 지민섭 (인하대학교 컴퓨터정보공학과) ;
  • 이연 (인하대학교 컴퓨터정보공학과) ;
  • 김경배 (서원대학교 컴퓨터교육과) ;
  • 배해영 (인하대학교 컴퓨터정보공학과)
  • Received : 2011.08.11
  • Accepted : 2011.09.05
  • Published : 2012.01.31

Abstract

u-GIS DSMSs have been researched to deal with various sensor data from GeoSensors in ubiquitous environment. Also, they has been more important for high availability. The data from GeoSensors have some characteristics that increase explosively. This characteristic could lead memory overflow and data loss. To solve the problem, various load shedding methods have been researched. Traditional methods drop the overloaded tuples according to a particular criteria in a single server. Tuple deletion sensitive queries such as aggregation is hard to satisfy accuracy. In this paper a dual processing load shedding method is suggested to improve the accuracy of aggregation in clustering environment. In this method two nodes use replicated stream data for high availability. They process a stream in two nodes by using a characteristic they share stream data. Stream data are synchronized between them with a window as a unit. Then, processed results are merged. We gain improved query accuracy without data loss.

인간의 삶을 돕는 유비쿼터스 환경에서 GeoSensor의 다양한 센서 데이터들을 다루는 u-GIS DSMS의 연구가 진행되고 있고 그에 따른 고가용성 서비스를 제공하기 위한 클러스터 시스템이 대두되고 있다. GeoSensor에 의해 수집되는 데이터는 폭발적으로 발생되는 특징을 가지고 있다. 이러한 특징은 서버의 제한된 메모리로 인하여 주어진 메모리를 초과하는 현상과 데이터가 손실되어 질의 정확도가 떨어지는 현상이 발생한다. 이를 해결하기 위해 부하제한 기법들이 활발히 연구되고 있다. 하지만 기존의 기법들은 단일 서버환경에서의 기법들로써 필터링을 통해 부하가 발생한 큐의 튜플들을 특별한 기준에 의해 드롭하는 방식이다. 그렇기 때문에 집계질의와 같은 튜플 삭제에 민감한 질의의 정확도를 만족시키기 어렵다. 본 논문에서는 GeoSensor 스트림 데이터의 클러스터링 환경에서 집계질의의 정확도 향상을 위한 이중처리 부하제한 기법을 제안한다. 본 기법은 두 노드가 고가용성을 위해 이중화 되어있는 스트림 데이터의 환경을 이용한다. 같은 스트림의 데이터를 공유하고 있는 특성을 이용해 두 노드에서 하나의 스트림의 데이터를 나누어 처리한다. 이때 슬라이딩 윈도우 단위로 두 노드 간 스트림 데이터를 동기화한다. 그리고 각 노드에서 처리된 결과를 다시 병합하는 방식이다. 성능평가를 통해 기존 기법들과 달리 튜플의 손실 없이 집계질의의 질의 정확도가 향상된 결과를 얻을 수 있었다.

Keywords

References

  1. C.H. Lee, K.W. An, M.S. Lee, J.W. Kim, "Trends of u-GIS Spatial Information Technology" Telectronics and Telecommunications Trends, ETRI, 2007.
  2. Won-il Jung, Sung-sun Sin, Sung-ha Baek, Yeon Lee, Hae-young Bae, "GeoSensor Data Stream Processing System for u-GIS Computing" KSISS journal, 11-1, 2009, pp. 9-16.
  3. D.J.Abadi, D. Carney, U. Cetintemel, M. Cherniack, C. Convey, S. Lee, M. Stonebraker, N. Tatbul and S. Zdonik, Aurora: A new model and architecture for data stream management" VLDB J. Vol 12 No. 2, pp. 120-139, 2003. https://doi.org/10.1007/s00778-003-0095-z
  4. A. Arasu and et. al., "STREAM: The Stanford Da-ta Stream Management System" http://dbpubs.standford.edu/pub/2004-20, 2004.
  5. J. Chen, D.J. DeWitt, F. Tian and Y. Wang, "NiagaraCQ: a scalable continous query system for internet databases" Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 379-390, 2000.
  6. F. Reiss and J.M. Hellerstein, "Data triage: an adaptive architecture for load shedding in TelegraphCQ" Proc. of the International Conference on Data Engineering, pp. 155-156, 2005.
  7. Gregory F. Pfister, In search of Clusters, Prentice Hall PTR, 1998.
  8. M. Wiesmann, F. Pedone,A. Shiper, B. Kemme, G. Alonso, "Understanding Replication in Databases and Distributed Systems", Proc. of the 20th International onference on Distributed Computing Systems, 2000.
  9. Yi-Cheng T., Song L., Sunil P., and Bin Y., "Load Shedding in Stream Databases: A Control-Based Approach," In VLDB Conference, 2006, pp. 787-798.
  10. Nesume T., Ugur C., Stan Z., Mitch C., and Michael S., "Load Shedding in a Data Stream Manager," VLDB, 2003, pp. 309-320.
  11. Brian B., Mayur D., and Rajeev M., "Load Shedding for Aggregation Queries over Data Stream," ICDE, 2004, pp. 350-361.
  12. Ho K., Sung-Ha B., Dong-Wook L., Gyoung-Bae K., Hae-Young B., "Load Shedding applying range overlap ratio of spatial query over Data Stream," ASGIS2009, 2009, pp. 49-55.