• 제목/요약/키워드: Massive Data Processing

검색결과 231건 처리시간 0.027초

대용량 데이터의 중복제거(De-Duplication) 성능 실험 (De-Duplication Performance Test for Massive Data)

  • 이철민;김재훈;김영규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.271-273
    • /
    • 2012
  • 중복 제거(De-duplication) 여러 데이터를 저장한 스토리지에서 같은 내용을 담고 있는 파일자체나 블록단위의 chunk 등을 찾아 중복된 내용을 제거하여 중복된 부분은 하나의 데이터 단위를 유지함으로써 스토리지 공간을 절약할 수 있다. 본 논문에서는 실험적인 데이터가 아닌 실제 업무 환경에서 적용될만한 대용량의 데이터 백업을 가정한 상황에 대해 중복 제거 기법을 테스트해봄으로써 중복제거율과 성능을 측정하였으며 이를 시각적으로 표현하는 방법을 제안함으로써 평가자 및 사용자가 알아보기 쉽게 하였다.

Computational Science-based Research on Dark Matter at KISTI

  • Cho, Kihyeon
    • Journal of Astronomy and Space Sciences
    • /
    • 제34권2호
    • /
    • pp.153-159
    • /
    • 2017
  • The Standard Model of particle physics was established after discovery of the Higgs boson. However, little is known about dark matter, which has mass and constitutes approximately five times the number of standard model particles in space. The cross-section of dark matter is much smaller than that of the existing Standard Model, and the range of the predicted mass is wide, from a few eV to several PeV. Therefore, massive amounts of astronomical, accelerator, and simulation data are required to study dark matter, and efficient processing of these data is vital. Computational science, which can combine experiments, theory, and simulation, is thus necessary for dark matter research. A computational science and deep learning-based dark matter research platform is suggested for enhanced coverage and sharing of data. Such an approach can efficiently add to our existing knowledge on the mystery of dark matter.

데이터 스트림 상에서 다중 연속 질의 처리를 위한 속성기반 접근 기법 (Attribute-based Approach for Multiple Continuous Queries over Data Streams)

  • 이현호;이원석
    • 정보처리학회논문지D
    • /
    • 제14D권5호
    • /
    • pp.459-470
    • /
    • 2007
  • 데이터 스트림은 빠르게 연속적으로 발생하는 무제한의 데이터 튜플의 집합이다. 이러한 데이터 스트림에 대한 질의 처리 또한 연속적이고 신속해야 하며 엄격한 시공간적 제약이 요구된다. 대부분의 데이터 스트림 관리시스템(DSMS)에서는 시공간적 제약사항을 효과적으로 지키기 위해서 등록된 연속 질의들의 선택 조건(selection predicate)들을 그룹화하거나 색인처리 한다. 본 논문에서는 연속 질의들의 선택 조건들을 속성별로 그룹화한 새로운 구조체인 속성 선택체(Attribute Selection Construct)를 제안한다. 속성 선택체에는 해당 속성이 특정 질의조건에 사용되는지 여부, 부분적으로 미리 계산된 질의결과 정보, 그리고 해당 속성의 선택률 통계 등 효율적인 질의 처리를 위한 유용한 정보들이 포함된다. 또한, 대상 질의집합을 구현한 속성 선택체들 간의 처리 순서는 전체적인 질의성능에 많은 영향을 미칠 수 있기 때문에 효과적으로 속성 선택체 처리 순서를 결정할 수 있는 전략도 함께 제안된다. 마지막으로, 기존의 방법들이 포함된 다양한 실험을 통하여 제안된 방법론의 성능을 여러 각도에서 비교 검증한다.

데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법 (A Distributed SPARQL Query Processing Scheme Considering Data Locality and Query Execution Path)

  • 김병훈;김대윤;고건식;노연우;임종태;복경수;이병엽;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.275-283
    • /
    • 2017
  • 시맨틱 웹 서비스의 증가로 인해 RDF 데이터가 대용량화되고 있다. 대용량 RDF 데이터를 효율적으로 활용하기 위하여 다양한 분산 저장 및 질의 처리기법들이 연구되고 있다. 본 논문에서는 대용량 RDF 데이터의 데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법을 제안한다. 제안하는 기법은 질의 처리 시의 조인 비용 및 통신비용을 감소시키기 위해 분산 저장된 RDF 데이터의 지역성 및 질의 수행 경로를 고려한다. 분산 환경에서 SPARQL 질의를 처리할 때 데이터 지역성을 고려하여 WHERE절을 기준으로 해당 질의를 여러 개의 서브 질의로 분할한다. 제안하는 기법은 분할된 서브 질의들을 인덱스를 통해 연관 노드들끼리 그룹화 하여 처리함으로써 데이터 통신비용을 감소시킬 수 있다. 또한 그룹 화된 서브 질의 처리 시 불필요한 조인 및 대기 시간을 감소시키기 위해 데이터 파싱 비용, 노드별 데이터 통신량 및 대기 시간 등을 고려한 효율적인 질의 수행 경로를 생성한다. 다양한 성능평가를 통해 제안하는 기법이 기존 기법보다 우수함을 보인다.

RDBMS를 이용한 XML 데이터의 혼합형 저장 기법 (A Hybrid Method of Storing XML Data Using RDBMS)

  • 전찬훈;강현철
    • 한국전자거래학회지
    • /
    • 제14권1호
    • /
    • pp.57-79
    • /
    • 2009
  • 웹 기반의 e-비지니스가 활성화되면서 웹 상의 데이터 교환 표준인 XML 데이터의 양이 폭발적으로 증가하고 있다. 현재 XML의 저장소로 가장 널리 사용되고 있는 RDB에 XML 데이터를 분해하여 저장하고 SQL을 통해 XML 질의를 처리하는 기법이 많이 연구되었지만, 대용량의 XML 데이터 저장에 따른 공간 부담을 어떻게 완화할 것인지에 대한 연구는 없었다. 본 논문에서는 XML 데이터를 분해하여 기존의 노드 단위로 저장하는 것과 더불어 자주 질의되지 않거나 시간의 경과 등으로 유효성이 떨어진 데이터를 서브트리 단위의 저장으로 전환할 수 있는 혼합형 저장 기법을 제시한다. 이를 바탕으로 XML 혼합형 저장 및 질의 처리 시스템을 설계 및 구현하고 기존의 노드 단위 저장 및 질의 처리 시스템과 공간 효율 및 질의 처리 성능을 실험을 통해 비교 평가함으로써 제시하는 기법의 효율성을 검증하였다.

  • PDF

Convolutional neural network-based data anomaly detection considering class imbalance with limited data

  • Du, Yao;Li, Ling-fang;Hou, Rong-rong;Wang, Xiao-you;Tian, Wei;Xia, Yong
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.63-75
    • /
    • 2022
  • The raw data collected by structural health monitoring (SHM) systems may suffer multiple patterns of anomalies, which pose a significant barrier for an automatic and accurate structural condition assessment. Therefore, the detection and classification of these anomalies is an essential pre-processing step for SHM systems. However, the heterogeneous data patterns, scarce anomalous samples and severe class imbalance make data anomaly detection difficult. In this regard, this study proposes a convolutional neural network-based data anomaly detection method. The time and frequency domains data are transferred as images and used as the input of the neural network for training. ResNet18 is adopted as the feature extractor to avoid training with massive labelled data. In addition, the focal loss function is adopted to soften the class imbalance-induced classification bias. The effectiveness of the proposed method is validated using acceleration data collected in a long-span cable-stayed bridge. The proposed approach detects and classifies data anomalies with high accuracy.

자기 조직화 지도에 기반한 유전자 발현 데이터의 계층적 군집화 (Hierarchical Clustering of Gene Expression Data Based on Self Organizing Map)

  • Park, Chang-Beom;Lee, Dong-Hwan;Lee, Seong-Whan
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.170-177
    • /
    • 2003
  • Gene expression data are the quantitative measurements of expression levels and ratios of numberous genes in different situations based on microarray image analysis results. The process to draw meaningful information related to genomic diseases and various biological activities from gene expression data is known as gene expression data analysis. In this paper, we present a hierarchical clustering method of gene expression data based on self organizing map which can analyze the clustering result of gene expression data more efficiently. Using our proposed method, we could eliminate the uncertainty of cluster boundary which is the inherited disadvantage of self organizing map and use the visualization function of hierarchical clustering. And, we could process massive data using fast processing speed of self organizing map and interpret the clustering result of self organizing map more efficiently and user-friendly. To verify the efficiency of our proposed algorithm, we performed tests with following 3 data sets, animal feature data set, yeast gene expression data and leukemia gene expression data set. The result demonstrated the feasibility and utility of the proposed clustering algorithm.

  • PDF

기호공간에서 이동객체 스트림 데이터의 연속 시공간 셀프조인 질의 (Continuous Spatio-Temporal Self-Join Queries over Stream Data of Moving Objects for Symbolic Space)

  • 황병주;이기준
    • Spatial Information Research
    • /
    • 제18권1호
    • /
    • pp.77-87
    • /
    • 2010
  • 시공간 조인은 이동객체와 같이 시공간의 특성을 가지는 데이터를 처리할 때 요구되는 중요한 연산자로, 이동객체들의 움직임을 분석하거나 이동객체들의 시공간적 패턴을 찾는 것과 같이 다양하게 활용된다. 현재까지 실외공간에서의 시공간 조인 질의에 관한 연구는 많이 진행되어왔다. 최근에는 실내측위기술이 발전함에 따라 실외뿐만 아니라 실내에서도 다양한 위치기반 서비스가 점진적으로 제공되고 있으며, 특히 이동객체를 중심으로 다양한 응용 서비스들을 필요로 하게 된다. 하지만 실내공간에서의 시공간 조인에 관한 연구는 아직 전무하다. 본 논문에서는 실내공간에서 실시간으로 갱신되는 이동객체에 대한 연속 시공간 셀프조인 질의와 질의처리 방법론을 제안하였다. 연속 시공간 셀프조인 질의는 주어지는 특정 시간과 공간의 조건을 만족하는 모든 쌍들을 시간이 지남에 따라 지속적으로 갱신하는 질의이다. 본 논문에서는 방이나 복도와 같이 특정한 기호를 중심으로 이동객체의 위치를 표현하며 이러한 특징을 가지는 공간을 기호공간이라 한다. 그리고 방대한 스트림데이터를 효과적으로 필터링하고 관리하기 위한 후보쌍 버퍼 테이블이라는 자료구조와 이를 활용한 질의처리 방법론을 제안하였으며 실험을 통해 타당성을 검증하였다.

스트림 데이터에서 회귀분석에 기반한 빈발항목 예측 (Frequent Items Mining based on Regression Model in Data Streams)

  • 이욱현
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.147-158
    • /
    • 2009
  • 최근 스트림데이터 환경의 데이터 모델은 데이터의 양이 아주 크고 연속적이며 무한하다. 이에 반해 제한된 용량의 디스크나 메모리 등을 이용해서 질의 처리나 데이터 분석을 처리한다. 이러한 환경에서 트랜잭션 데이터베이스에 대한 전통적인 빈발패턴탐사는 불가능하다고 할 수 있다. 왜냐하면, 연속적으로 들어오는 스트림 데이터에 대해 어떤 항목집합이 빈발항목인지 아닌지에 대한 정보를 계속적으로 유지 관리하기가 어렵기 때문이다. 본 논문에서는 연속적으로 들어오는 스트림 데이터에 회귀모델을 적용하여 빈발 항목들을 예측할 수 있는 방법을 제안한다. 스트림 데이터로부터 회귀모델을 생성함으로써 불확실한 항목들에 대한 예측 모델로 사용할 수 있다. 다양한 실험을 통하여 제안하는 방법이 스트림 데이터 환경의 데이터에 효율적으로 사용될 수 있음을 보인다.

방대한 기상 레이더 데이터의 원할한 처리를 위한 순환 가중최소자승법 기반 RBF 뉴럴 네트워크 설계 및 응용 (Design of RBF Neural Networks Based on Recursive Weighted Least Square Estimation for Processing Massive Meteorological Radar Data and Its Application)

  • 강전성;오성권
    • 전기학회논문지
    • /
    • 제64권1호
    • /
    • pp.99-106
    • /
    • 2015
  • In this study, we propose Radial basis function Neural Network(RBFNN) using Recursive Weighted Least Square Estimation(RWLSE) to effectively deal with big data class meteorological radar data. In the condition part of the RBFNN, Fuzzy C-Means(FCM) clustering is used to obtain fitness values taking into account characteristics of input data, and connection weights are defined as linear polynomial function in the conclusion part. The coefficients of the polynomial function are estimated by using RWLSE in order to cope with big data. As recursive learning technique, RWLSE which is based on WLSE is carried out to efficiently process big data. This study is experimented with both widely used some Machine Learning (ML) dataset and big data obtained from meteorological radar to evaluate the performance of the proposed classifier. The meteorological radar data as big data consists of precipitation echo and non-precipitation echo, and the proposed classifier is used to efficiently classify these echoes.