• 제목/요약/키워드: data streams

검색결과 825건 처리시간 0.022초

하이브리드 질의를 위한 데이터 스트림 저장 기술 (Data Stream Storing Techniques for Supporting Hybrid Query)

  • 신재진;유병섭;어상훈;이동욱;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1384-1397
    • /
    • 2007
  • 본 논문은 데이터 스트림의 하이브리드 질의를 위한 빠른 저장 방법을 제안한다. 빠르고 많은 입력을 가지는 데이터 스트림의 처리를 위해 DSMS(Data Stream Management System)란 새로운 시스템에 대한 연구가 활발히 진행되고 있다. 현재 입력되고 있는 데이터 스트림과 과거에 발생했던 데이터 스트림를 동시에 검색하는 하이브리드 질의를 위해서는 데이터 스트림이 디스크에 저장되어져야 한다. 그러나 데이터 스트림의 빠른 입력 속도와 메모리와 디스크 공간의 한계 때문에 저장된 데이터 스트림에 대한 질의보다는, 현재 입력되고 있는 데이터 스트림에 대한 질의에 대한 연구들이 주로 이루어졌다. 본 논문에서는 데이터 스트림의 입력을 받을 때 순환버퍼를 이용하여 메모리 이용률을 최대화하고 블록킹 없는 데이터 스트림의 입력을 가능하게 한다. 또한 최대한 많은 양의 데이터를 디스크에 저장하기 위하여 디스크에 있는 데이터를 압축한다. 실험을 통하여 제안되는 기술이 대량으로 입력되는 데이터 스트림을 빠르게 저장시킬 수 있다는 것을 보인다.

  • PDF

EXTENDED ONLINE DIVISIVE AGGLOMERATIVE CLUSTERING

  • Musa, Ibrahim Musa Ishag;Lee, Dong-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2008년도 International Symposium on Remote Sensing
    • /
    • pp.406-409
    • /
    • 2008
  • Clustering data streams has an importance over many applications like sensor networks. Existing hierarchical methods follow a semi fuzzy clustering that yields duplicate clusters. In order to solve the problems, we propose an extended online divisive agglomerative clustering on data streams. It builds a tree-like top-down hierarchy of clusters that evolves with data streams using geometric time frame for snapshots. It is an enhancement of the Online Divisive Agglomerative Clustering (ODAC) with a pruning strategy to avoid duplicate clusters. Our main features are providing update time and memory space which is independent of the number of examples on data streams. It can be utilized for clustering sensor data and network monitoring as well as web click streams.

  • PDF

Predictive Memory Allocation over Skewed Streams

  • Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제7권2호
    • /
    • pp.199-202
    • /
    • 2009
  • Adaptive memory management is a serious issue in data stream management. Data stream differ from the traditional stored relational model in several aspect such as the stream arrives online, high volume in size, skewed data distributions. Data skew is a common property of massive data streams. We propose the predicted allocation strategy, which uses predictive processing to cope with time varying data skew. This processing includes memory usage estimation and indexing with timestamp. Our experimental study shows that the predictive strategy reduces both required memory space and latency time for skewed data over varying time.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

하천수질 오염요소 분석을 근거로 금강수계의 우선정비 대상하천 선정을 위한 집단화 기법적용 (Application of Grouping Method to select Priority Restoration Streams in Geumgang Watershed based on Analysis of Pollution Factors)

  • 이상호;황정재
    • 상하수도학회지
    • /
    • 제27권5호
    • /
    • pp.661-669
    • /
    • 2013
  • River-water quality has been greatly improved during past several decades with the extraordinary expansion for the wastewater treatment capacities by the government. Research aims to select the priority restoration streams based on the chronicle data for tributaries in Geumgang watershed as the main stream area in the Chungchungnamdo province. The quality of BOD, phosphorus and percent of sewered population on 15 branch streams were compared by the grouping methods. The results of group D streams by category I that exceed 3.0 mg/L for BOD and 0.1 mg/L for phosphorus were Seuksung, Ganggyung and Bangchuk stream. The results of group D streams by category II that exceed 3.0 mg/L for BOD and less than 63.5 % of average percent of sewered population were Ganggyung, Gilsan, Bangchuk and Seuksung stream. The final results of selected streams drawn by the chronicle data which exceeded the standard quality and lower than the average percent of sewered population were Seoksung, Gangeyung and Bangchuk stream. The pollution of rivers in the down streams were more serious than in the upper streams. Their watersheds have to be improved river water quality, especially to extend sewer systems as well as wastewater treatment facilities.

센서 네트워크 기반의 홀리스틱 분산 클러스터링 알고리즘 (A holistic distributed clustering algorithm based on sensor network)

  • 진평;임기욱;남지은;이경오
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.874-877
    • /
    • 2008
  • Nowadays the existing data processing systems can only support some simple query for sensor network. It is increasingly important to process the vast data streams in sensor network, and achieve effective acknowledges for users. In this paper, we propose a holistic distributed k-means algorithm for sensor network. In order to verify the effectiveness of this method, we compare it with central k-means algorithm to process the data streams in sensor network. From the evaluation experiments, we can verify that the proposed algorithm is highly capable of processing vast data stream with less computation time. This algorithm prefers to cluster the data streams at the distributed nodes, and therefore it largely reduces redundant data communications compared to the central processing algorithm.

웹 클릭 스트림에서 고유용 과거 정보 탐색 (Finding high utility old itemsets in web-click streams)

  • 장중혁
    • 한국산학기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.521-528
    • /
    • 2016
  • 개인용 컴퓨터 및 각종 모바일 기기의 이용 증가로 인해 많은 분야에서 다양한 형태의 웹기반 서비스들이 널리 활용되고 있다. 이에 따라 해당 분야에서 개인 맞춤형 서비스를 지원하기 위한 사용자 이용 로그 분석 등에 대한 연구가 활발히 진행되고 있으며, 특히 사용자 로그 데이터를 구성하는 구성요소의 중요성 차별화에 기반한 분석 기법들이 활발히 연구되었다. 본 논문에서는 웹 클릭 스트림에서 유용하게 적용될 수 있는 고유용 과거 정보 탐색 기법을 제시한다. 해당 기법을 통해 기존의 웹 클릭 스트림 분석 기법에서는 쉽게 탐색하지 못했던 정보인 타겟 마케팅 등에 유용하게 활용될 수 있는 중요 정보를 쉽게 탐색할 수 있다. 본 논문의 연구 결과는 IoT 환경 및 생물정보 분석 등과 같이 데이터 스트림 형태로 정보를 발생시키는 다양한 컴퓨터 응용 분야에도 활용될 수 있을 것이다.

단일 스캔을 통한 웹 방문 패턴의 탐색 기법 (An Efficient Approach for Single-Pass Mining of Web Traversal Sequences)

  • 김낙민;정병수;아메드 파한
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.221-227
    • /
    • 2010
  • 인터넷 사용의 급증과 더불어 보다 편리한 인터넷 서비스를 위한 여러 연구가 활발히 진행되어 왔다. 웹 로그 데이터로부터 빈번하게 발생되는 웹 페이지들의 방문 시퀀스를 탐색하는 기법 역시 효과적인 웹 사이트를 설계하기 위한 목적으로 많이 연구되어 왔다. 그러나 기존의 방법들은 모두 여러 번의 데이터베이스 스캔을 필요로 하는 방법으로 지속적으로 생성되는 웹 로그 데이터로부터 빠르게 실시간적으로 웹 페이지 방문 시퀀스를 탐색하기에는 많은 어려움이 있었다. 또한 점진적(incremental)이고 대화형식(interactive)의 탐색 기법 역시 지속적으로 생성되는 웹 로그 데이터를 처리하기 위하여 필요한 기능들이다. 본 논문에서는 지속적으로 생성되는 웹 로그 데이터로부터 단일 스캔을 통하여 빈번히 발생하는 웹 페이지 방문 시퀀스를 점진적이고 대화 형식적인 방법으로 탐색하는 방법을 제안한다. 제안하는 방법은 WTS(web traversal sequence)-트리 구조를 사용하며 다양한 실험을 통하여 기존의 방법들에 비해 성능적으로 우수하고 효과적인 방범임을 증명한다.

Transformation of Continuous Aggregation Join Queries over Data Streams

  • Tran, Tri Minh;Lee, Byung-Suk
    • Journal of Computing Science and Engineering
    • /
    • 제3권1호
    • /
    • pp.27-58
    • /
    • 2009
  • Aggregation join queries are an important class of queries over data streams. These queries involve both join and aggregation operations, with window-based joins followed by an aggregation on the join output. All existing research address join query optimization and aggregation query optimization as separate problems. We observe that, by putting them within the same scope of query optimization, more efficient query execution plans are possible through more versatile query transformations. The enabling idea is to perform aggregation before join so that the join execution time may be reduced. There has been some research done on such query transformations in relational databases, but none has been done in data streams. Doing it in data streams brings new challenges due to the incremental and continuous arrival of tuples. These challenges are addressed in this paper. Specifically, we first present a query processing model geared to facilitate query transformations and propose a query transformation rule specialized to work with streams. The rule is simple and yet covers all possible cases of transformation. Then we present a generic query processing algorithm that works with all alternative query execution plans possible with the transformation, and develop the cost formulas of the query execution plans. Based on the processing algorithm, we validate the rule theoretically by proving the equivalence of query execution plans. Finally, through extensive experiments, we validate the cost formulas and study the performances of alternative query execution plans.

이동 단말기에서 멀티미디어 연출시 최초 재생 지연시간을 줄이기 위한 트랜스코드 스케줄링 기법 (A transcode scheduling technique to reduce early-stage delay time in playing multimedia in mobile terminals)

  • 홍마리아;윤준성;임영환
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.695-704
    • /
    • 2003
  • 본 논문은 멀티미디어 데이터 스트림들을 이동단말기에서 연출(play)하기 위해 스트림의 특성을 파악한 후 변환 시킬 스트림을 선정하여 트랜스코딩하는 스케줄링 기법을 제시하였다. 이것은 연출될 모든 스트림들을 트랜스코딩하는 것보다 선정정책에 의해 특정 스트림을 선택하여 트랜스코딩하는 것이 최초 재생 지연 시간을 줄일 수 있는 장점이 있다. 따라서 본 논문은 멀티미디어 데이터 스트림들의 요구 대역폭을 네트워크 대역폭 보다 낮추면서, 이동 단말기에서 멀티미디어 데이터 스트림들이 재생되기까지의 최초 재생 지연시간을 최소화시킬 수 있는 방법으로 EPOB(End Point of Over Bandwidth) 기반의 트랜스코딩 스트림 선정 정책을 제안하였다.