• Title/Summary/Keyword: Massive Data Processing

Search Result 231, Processing Time 0.026 seconds

GPU를 이용한 범용 계산의 소개 (Introduction to general purpose GPU computing)

  • 유동현;임요한
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.1043-1061
    • /
    • 2013
  • 최근 과학 기술의 빠른 발전에 따라 대용량 자료가 출현하였고 이에 대한 분석의 중요도도 높아졌다. 대용량 자료의 분석에 가장 중요한 부분중 하나가 고성능 컴퓨팅 기법이고 본 논문에서는 최근 통계학계의 많은 관심을 받고 있는 GPU (graphics processing unit)기반 병렬 계산에 대한 기초적인 소개를 한다.

상황인지 시스템에서 대용량의 데이터 처리결과를 컨텍스트 정보로 제공하기 위한 방법 (A Method to Provide Context from Massive Data Processing in Context-Aware System)

  • 박유상;최종선;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권4호
    • /
    • pp.145-152
    • /
    • 2019
  • 단일 센서기기로부터 수집된 데이터와는 다르게 대용량의 데이터는 입력데이터의 구성 및 크기가 가변적이고, 처리 완료시점을 예측할 수 없는 특징을 갖고 있다. 상황인지 시스템이 이러한 환경의 요구사항을 적용하게 되면 컨텍스트 표현방법과 처리모듈들이 개별로 구성되어 해당 입력자료에 대한 호출 및 처리루틴이 복잡하게 구현될 수 있는 문제점이 있다. 이러한 문제점을 해결하기 위해서 본 논문에서 제안하는 처리방법은 온톨로지 기반의 지식표현을 통해 컨텍스트를 표현하고, 대용량의 데이터 처리결과를 반환하는 모듈의 중복 실행을 방지하여 컨텍스트 정보를 제공하기 위한 동작순서를 함께 기술한다. 실험에서는 헬스케어 환경에서 발생하는 센싱데이터 중 대용량의 데이터 처리결과를 필요로 하는 서비스에 대해 기술하고, 기존의 센싱데이터를 바탕으로 서비스를 제공하는 처리과정과 함께 대용량의 데이터 처리결과를 컨텍스트 정보로 제공하는 과정을 보인다.

Two-Tier Storage DBMS for High-Performance Query Processing

  • Eo, Sang-Hun;Li, Yan;Kim, Ho-Seok;Bae, Hae-Young
    • Journal of Information Processing Systems
    • /
    • 제4권1호
    • /
    • pp.9-16
    • /
    • 2008
  • This paper describes the design and implementation of a two-tier DBMS for handling massive data and providing faster response time. In the present day, the main requirements of DBMS are figured out using two aspects. The first is handling large amounts of data. And the second is providing fast response time. But in fact, Traditional DBMS cannot fulfill both the requirements. The disk-oriented DBMS can handle massive data but the response time is relatively slower than the memory-resident DBMS. On the other hand, the memory-resident DBMS can provide fast response time but they have original restrictions of database size. In this paper, to meet the requirements of handling large volumes of data and providing fast response time, a two-tier DBMS is proposed. The cold-data which does not require fast response times are managed by disk storage manager, and the hot-data which require fast response time among the large volumes of data are handled by memory storage manager as snapshots. As a result, the proposed system performs significantly better than disk-oriented DBMS with an added advantage to manage massive data at the same time.

Study on Data Processing of the IOT Sensor Network Based on a Hadoop Cloud Platform and a TWLGA Scheduling Algorithm

  • Li, Guoyu;Yang, Kang
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1035-1043
    • /
    • 2021
  • An Internet of Things (IOT) sensor network is an effective solution for monitoring environmental conditions. However, IOT sensor networks generate massive data such that the abilities of massive data storage, processing, and query become technical challenges. To solve the problem, a Hadoop cloud platform is proposed. Using the time and workload genetic algorithm (TWLGA), the data processing platform enables the work of one node to be shared with other nodes, which not only raises efficiency of one single node but also provides the compatibility support to reduce the possible risk of software and hardware. In this experiment, a Hadoop cluster platform with TWLGA scheduling algorithm is developed, and the performance of the platform is tested. The results show that the Hadoop cloud platform is suitable for big data processing requirements of IOT sensor networks.

PC 클러스터를 이용한 래스터 GIS 연산의 병렬화 (Parallelization of Raster GIS Operations Using PC Clusters)

  • 신윤호;박수홍
    • Spatial Information Research
    • /
    • 제11권3호
    • /
    • pp.213-226
    • /
    • 2003
  • GIS를 이용한 대용량의 지리정보 처리가 요구되고 있으나 단일 프로세서만으로 복잡한 GIS 연산을 처리하는 데는 능력의 한계성이 대두되고 있다. 특히, GIS 데이터의 증가속도에 프로세서 발전 속도가 미치지 못하고, 증가되는 광범위한 데이터를 처리하는 작업 또한 많은 시간이 걸리는 문제점이 나타나고 있다. 이에 대한 대안으로 계산의 양이 많고 또한, 대용량의 입·출력이 빈번히 일어나는 GIS 연산 작업을 여러 프로세서에 분산시켜 동시에 수행하도록 하는 GIS 작업의 병렬화에 대한 연구가 최근 활발히 진행되고 있다. 본 연구에서는 고가의 병렬 컴퓨터로만 수행되던 병렬 처리를 일반적인 GIS 사용자들이 사용하는 PC 기반으로 MPI(Message Passing Interface)를 사용하여 기존의 단일 프로세서로만 진행되던 래스터 GIS 연산에 대해서 병렬화 과정을 적용하여 연산의 처리 능력을 향상시키고자 한다. 이를 위해, GIS 연산들에 대한 체계적인 분석과 분류를 제시한 Tomlin(1990)의 래스터 GIS 연산을 기준으로 각 연산에 대해 적합한 데이터 분할 기법을 통한 병렬화 과정을 연구하였다.

  • PDF

대규모 정보처리를 위한 병렬 화일시스템 설계에 관한 연구 (A Study of designing Parallel File System for Massive Information Processing)

  • 장시웅;정기동
    • 한국정보처리학회논문지
    • /
    • 제4권5호
    • /
    • pp.1221-1230
    • /
    • 1997
  • 본 연구에서는 Workstation Cluster 환경에서 전통적인 디스크들을 배열처럼 사용할 수 있는 병렬 화일시스템(N-PFS)의 성능을 해석적 방법과 실측 결과를 사용 하여 분석하였다. N-PFS는 소규모 서버 시스템에서 고성능 화일 서버로 사용될 수 있으며, 멀티미디어 데이타나 과학 계산용 데이타와 같은 대용량 데이타를 효율 적으로 처리할 수 있다 본 논문에서는 N-PFS의 성능 분석을 위한 해석적 모델을 제시하였으며, 제시된 해석적 모델의 정확성을 시스템에서의 실측값과 비교함으로써 검증하였다. 해석적 방법과 실측을 통하여 성능을 분석한 결과, 위크스테이션 클리스터 환경에서 대용량 데이타 처리에 적합한 스트라이핑 단위는 64-128Kbytes이며, 8개의 디스크에서 최대 대역폭은 15.8Mbytes/sec로 나타났다. 그리고 대용량 데이타 처리시의 병목 현상은 버퍼 간의 데이타 폭사시간으로 나타났다.

  • PDF

대용량 해상시험자료 데이터베이스 시스템 설계 및 구현 (Design and Implementation of the Massive Underwater Acoustic Database System)

  • 정기현;최재용;도경철;김응범
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2020-2030
    • /
    • 1999
  • 해상시험에서 획득되는 자료는 함정 1척당 53GB 정도의 대용량으로 고가이며, 재현이 불가능하므로 체계적인 관리가 요구된다. 본 논문에서는 각 시험별로 획득, 관리되어오던 대용량 원시자료와 다양한 분석기법을 통하여 추출한 분석자료를 통합하여 장기간 저장함과 동시에 체계적으로 관리, 제공할 목적으로 개발되어 운용중인 해상시험자료 데이터베이스 시스템에 대해서 논한다. 대용량 CD-쥬크박스를 자진 유닉스 서버와 윈도우 환경의 클라이언트로 구성된 시스템으로 현재 입력된 6003개의 검색건수를 이용하여 클라이언트/서버 각각에 대해서 성능 평가를 수행한다.

  • PDF

클라우드 환경에서 대규모 콘텐츠를 위한 효율적인 자원처리 기법 (ECPS: Efficient Cloud Processing Scheme for Massive Contents)

  • 나문성;김승훈;이재동
    • 한국산업정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.17-27
    • /
    • 2010
  • 주요 IT 벤더들은 클라우드 컴퓨팅 기술을 이용하여 설치과정 생략, 운용비용 절감, 서비스품질 등에 중점을 두어 대규모 콘텐츠 서비스를 제공하고 있다. 반면에, 대규모 콘텐츠 데이터의 가공, 분석을 수행하는 데이터 처리 프로세스는 처리 시간의 단축을 위한 방법론이 요구되고 있다. 이에 본 논문에서는 클라우드 환경에서 대규모 콘텐츠를 위한 효율적인 자원처리 기법(Efficient_Cloud_Processing_Scheme : ECPS)을 제안한다. 제안한 기법은 리소스 확장 방안을 CPU 및 스토리지 등의 인프라스트럭처 단계에서 설계한다. 대규모 콘텐츠에 대한 자원 할당 방안을 Hadoop 플랫폼 기반의 MapReduce 프로그래밍 기법과 데이터마이닝 분야에서 숨겨진 패턴을 탐지하는데 사용되는 연관규칙을 이용하여 제시한다. 기존 설정값으로 자원을 할당하여 비교하여 ECPS기법을 적용한 결과, 제안 기법이 20% 이상의 성능 및 속도가 향상되었음을 확인하였다.

클라우드 환경에서의 암호화 데이터에 대한 효율적인 Top-K 질의 수행 기법 (Efficient Top-K Queries Computation for Encrypted Data in the Cloud)

  • 김종욱
    • 한국멀티미디어학회논문지
    • /
    • 제18권8호
    • /
    • pp.915-924
    • /
    • 2015
  • With growing popularity of cloud computing services, users can more easily manage massive amount of data by outsourcing them to the cloud, or more efficiently analyse large amount of data by leveraging IT infrastructure provided by the cloud. This, however, brings the security concerns of sensitive data. To provide data security, it is essential to encrypt sensitive data before uploading it to cloud computing services. Although data encryption helps provide data security, it negatively affects the performance of massive data analytics because it forbids the use of index and mathematical operation on encrypted data. Thus, in this paper, we propose a novel algorithm which enables to efficiently process a large amount of encrypted data. In particular, we propose a novel top-k processing algorithm on the massive amount of encrypted data in the cloud computing environments, and verify the performance of the proposed approach with real data experiments.

Agent Based Cinder Monitoring System Supporting PDA

  • Han, Jung-Soo
    • International Journal of Contents
    • /
    • 제3권1호
    • /
    • pp.24-28
    • /
    • 2007
  • This paper embodies the agent based cinder monitoring system which supports PDA(Personal Digital Assistant). Monitoring system automatically manages data by using data managing agents such as a state managing agent, a location managing agent, a badness managing agent, a circumstances managing agent, etc, and uses a massive data processing agent to manage massive data. The development of agent based data monitoring system for the stable cinder reuse will be an epoch-making method to develop the process mechanized or manual-labored that widely spreads into the real-time automated process.