• 제목/요약/키워드: 스트림 데이터 처리

검색결과 511건 처리시간 0.035초

WT-Heuristics: 스트림 데이터 환경에서의 효율적인 필터 연산자 순서화 기법 (WT-Heuristics: An Efficient Filter Operator Ordering Technology in Stream Data Environments)

  • 민준기
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.163-170
    • /
    • 2008
  • 인터넷과 인트라넷의 확산에 따라, 스트림 데이터 처리 (stream data processing) 와 같은 새로운 분야가 등장하게 되었다. 스트림 데이터는 실시간적이고 연속적으로 생성된다. 본 논문에서는 시간에 따라서 예측할 수 없게 특성이 바뀌는 데이터 스트림에 대한 처리에 대하여 다룬다. 특별히, 본 논문에서는 스트림 데이터에 대한 질의문을 구성하는 연산자들 간의 효율적인 수행 순서 생성 기법인 WT-Heuristics를 제안한다. WT-Heuristics 기법은 연산 실행 순서에서 인접한 두 연산자들의 연산 순서만을 고려함으로써 효율적으로 연산자 순서를 결정할 수 있다. 또한 본 논문에서 제안하는 방법은 시스템의 부담을 적게 주면서도 데이터의 변화에 따라 수행 순서를 변화시킨다.

시공간 슬라이딩윈도우기법을 이용한 데이터스트림의 인과관계 결합질의처리방법 (Causality join query processing for data stream by spatio-temporal sliding window)

  • 권오제;이기준
    • Spatial Information Research
    • /
    • 제16권2호
    • /
    • pp.219-236
    • /
    • 2008
  • 센서로부터 획득되는 데이터 스트림은 스트림 데이터 간의 인과관계와 같은 다양한 유용한 정보를 포함한다. 센서 스트림에 대한 인과관계 조인질의는 스트림으로부터 인과관계의 (원인, 결과) 쌍을 찾아내는 것이다. 하지만 센서로부터 DSMS로 데이터가 전송될 때 발생하는 지연과 제한된 윈도우 크기로 인해 일부의 인과관계 결과 쌍이 손실될 수 있다. 본 논문에서는 먼저 데이터 스트림에서 인과관계 조인질의를 처리할 때 고려해야할 시간적, 공간적 그리고 시공간적 관점에 대해 관찰하고 이러한 관찰들을 고려한 다양한 슬라이딩 윈도우 처리 방법들을 제안한다. 제안된 방법들의 성능은 다양한 실험들을 통해 평가되어지는데 실험 결과들은 본 논문에서 제안된 방법들이 기존의 FIFO 방법에 비해 인과관계 질의 처리 결과가 더 정확함을 보여준다.

  • PDF

스트림 데이터의 윈도우 기반 분류 (A Window-Based Classification of Stream Data)

  • 김성현;이용미;김룡;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.47-50
    • /
    • 2005
  • 센서와 모바일 기술의 발달로 인해 다양한 센서에서 수집된 스트림 데이터를 처리하는 연구들이 많이 수행되고 있다. 다차원 속성의 스트림 데이터는 센서에서 주기적으로 수집되어 버퍼링 후 처리되기 때문에 기존의 투플 기반의 데이터 분류 기법에 적합하지 않다. 따라서 이 논문에서는 윈도우 기반의 스트림 데이터 분류를 위해 각 속성의 평균과 표준편차 값을 이용하여 투플 기반으로 변환하는 기법을 제안한다. 제안된 기법의 타당성은 투플 기반 데이터 분류 기법(의사결정트리, 단순 베이지안 분류기, 베이지안 신뢰 네트워크)에 의한 정확도 측정에 기반 한다. 로봇에서 수집된 센서 데이터를 이용한 실험 결과, 높은 정확도로 제안된 기법이 타당함을 증명하였으며 베이지안 신뢰 네트워크 기법이 다른 기법에 비해 우수함을 발견하였다.

  • PDF

데이터 스트림 환경에서 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법 (Load balancing method of overload prediction for guaranteeing the data completeness in data stream)

  • 김영기;신숭선;백성하;이동욱;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제12권9호
    • /
    • pp.1242-1251
    • /
    • 2009
  • 유비쿼터스 환경에서 데이터 스트림 관리 시스템(Data Stream Management System: DSMS)은 수많은 센서로부터 생성되는 대량의 데이터 스트림을 처리한다. 기존의 시스템은 처리 능력 이상의 데이터 스트림이 입력되면 데이터의 일부를 제거하여 적정 부하를 유지하는 부하 제한 기법(Load Shedding)을 사용한다. 부하 제한 기법은 입력되는 데이터의 일부를 의도적으로 손실하여 데이터 완전도(Data Completeness)가 감소하기 때문에 처리 결과의 신뢰도 또한 감소한다. 따라서 본 논문에서는 시스템 처리 능력 이상의 데이터 스트림 입력 시 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법을 제안한다. 제안 기법은 데이터 손실이 예상되는 부하 시점을 미리 예측하고 예측된 부하 시점에 도달 시 부하를 분산하여 데이터 손실을 감소시킨다. 본 논문에서는 기존의 부하 제한 기법과의 비교 실험을 통해 제안 기법의 성능을 평가한다.

  • PDF

스트림 데이터에서 회귀분석에 기반한 빈발항목 예측 (Frequent Items Mining based on Regression Model in Data Streams)

  • 이욱현
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.147-158
    • /
    • 2009
  • 최근 스트림데이터 환경의 데이터 모델은 데이터의 양이 아주 크고 연속적이며 무한하다. 이에 반해 제한된 용량의 디스크나 메모리 등을 이용해서 질의 처리나 데이터 분석을 처리한다. 이러한 환경에서 트랜잭션 데이터베이스에 대한 전통적인 빈발패턴탐사는 불가능하다고 할 수 있다. 왜냐하면, 연속적으로 들어오는 스트림 데이터에 대해 어떤 항목집합이 빈발항목인지 아닌지에 대한 정보를 계속적으로 유지 관리하기가 어렵기 때문이다. 본 논문에서는 연속적으로 들어오는 스트림 데이터에 회귀모델을 적용하여 빈발 항목들을 예측할 수 있는 방법을 제안한다. 스트림 데이터로부터 회귀모델을 생성함으로써 불확실한 항목들에 대한 예측 모델로 사용할 수 있다. 다양한 실험을 통하여 제안하는 방법이 스트림 데이터 환경의 데이터에 효율적으로 사용될 수 있음을 보인다.

대용량 센서 데이터 스트림 처리를 위한 프레임워크 설계 (Design of the Framework for Processing Large Sensor Data Stream)

  • 최현화;원종호;이훈순;채미옥;박재홍;정원일;김병섭;이명철;이미영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.35-38
    • /
    • 2004
  • 센서 데이터 스트림 처리 기술은 유비쿼터스 컴퓨팅의 핵심 기술로 그 중요성이 날로 증대되어, 현재 산업계는 물론 학계에서도 그 역량을 이에 집중하고 있다. 본 논문에서는, 센서 데이터 스트림에 대한 특징 및 이를 처리하기 위한 산업계와 학계의 동향을 알아본다. 그리고, 대용량 센서데이터 스트림을 처리하기 위해 요구되어지는 기능을 정리하고, 이를 기반으로 센서 데이터 스트림처리 시스템의 구조를 설계한다.

  • PDF

스트리밍 빅데이터 처리 시스템 설계 (A Design on a Streaming Big Data Processing System)

  • 김성숙;김경태;박기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

다차원 스트림 데이터 환경에서의 효율적인 데이터 수집 기법 (A Method for Efficiently Collecting Data from Multiple Data Streams)

  • 김재인;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.815-818
    • /
    • 2009
  • USN 환경에서의 센서는 일반적으로 많은 제약사항을 가지고 있다. 센서의 제한된 전원의 문제는 센서의 동작 수명과 관련된 것으로 최근의 연구들에서 중요 이슈가 되고 있다. 본 논문에서는 고도화되는 USN 환경에서 발생되는 다차원 스트림데이터를 수집하는데 있어서 센서의 전원 문제를 해결하고 데이터를 효율적으로 수집하기 위한 기법을 제안한다. 제안하는 기법은 센서에 이상 이벤트를 정의하고 이상 이벤트에 해당하는 데이터를 수집하는 경우에만 데이터를 전송하도록 하여 센서의 통신 빈도를 줄여 센서의 전원 문제를 해결하고 스트림 데이터를 기호화 하여 처리함으로써 스트림 데이터를 효율적으로 수집할 수 있다.

해양플랜트의 예지보전을 위한 실시간 데이터 스트림 처리 구현 (Implementation of Real-time Data Stream Processing for Predictive Maintenance of Offshore Plants)

  • 김성수;원종호
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.840-845
    • /
    • 2015
  • 최근 빅데이터는 전사적 자원관리 분야뿐만 아니라 해양플랜트내 생산 및 운영 작업 분야에서도 큰 관심을 받고 있다. 이력데이터를 기반으로 미래의 설비에 대한 성능을 예측하는 것은 설비들의 생산성을 향상 시킬 수 있다. 특히 해양플랜트의 주요설비 중 하나인 원심압축기는 고장 시 폭발 할 수 있는 위험한 설비이기 때문에 실시간으로 설비성능을 모니터링 해야 한다. 본 논문에서 원심압축기의 성능을 계산하기 위한 스트림 데이터 처리 구조를 제안한다. 제안하는 시스템은 크게 가상태그 스트림 생성기와 실시간 데이터 스트림 관리자와 같이 두 가지 컴포넌트로 구성된다. 시스템 성능 확장성을 제공하기 위해, 멀티 코어 CPU를 사용하여 대용량 스트림 데이터를 처리할 수 있는 병렬 프로그래밍 접근 방식을 이용하였다. 또한, 실험을 통해 원심압축기의 스트림 데이터 처리에 대한 성능 개선을 보여주었다.

데이터스트림에서 Exponential Histogram을 사용한 개념 변화 검출 기법 (A Method for Detecting Concept Drift in Data Stream by Using Exponential Histogram)

  • 김만수;임효상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.861-864
    • /
    • 2017
  • 본 논문은 Exponential histogram을 사용하여 데이터스트림에서 개념 변화를 검출 하는 기법을 제안한다. 스트림 데이터와 같이 빠르게 증가하는 데이터에 대한 개념 변화를 찾는 것은 중요 문제이다. 기존에 사용하던 슬라이딩 윈도우 기반의 방법들은 과거의 데이터를 버렸지만, 제안하는 방법은 과거의 데이터를 효율적으로 저장하며, 윈도우의 크기를 변경 할 수 있는 방법을 제안한다. 실험을 통해 제안하는 방법에 대한 효율성과 정확성을 보인다.