• 제목/요약/키워드: Distributed data

검색결과 6,037건 처리시간 0.031초

빅데이터 처리 및 분석을 위한 Rhipe 플랫폼 (Rhipe Platform for Big Data Processing and Analysis)

  • 정병호;신지은;임동훈
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1171-1185
    • /
    • 2014
  • R과 Hadoop의 통합환경인 Rhipe 개발로 인해 분산처리 환경 하에서 대용량 데이터 분석이 가능해졌다. 본 논문에서는 Rhipe을 이용하여 실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 다중 회귀분석을 구현하였다. Hadoop의 가상분산 모드(pseudo-dstributed mode)와 완전분산 모드(fully-distributed mode) 구축 시스템 비교에서 완전분산 모드 시스템이 가상분산 모드 시스템보다 처리 속도가 빠르고 데이터 노드의 수가 많을수록 계산 시간이 점점 줄어드는 것을 알 수 있었다. 또한, 제안된 Rhipe 플랫폼의 성능을 평가하기 위해 기본 R 패키지인 stats와 bigmemory 상에서 유용한 biglm 패키지와 처리 속도를 비교하였다. 실험결과 Rhipe은 데이터의 크기가 클수록 map task 개수가 증가되고 동시에 병렬 처리로 인해 다른 패키지들보다 빠른 처리속도를 보였다.

분산 트레이더를 지원하는 경량 (lightweight) 객체 모델 설계 및 구현 방안 연구 (A Study on the Design and Implementation of the Lightweight Object Model Supporting Distributed Trader)

  • 진명숙;송병권
    • 한국정보처리학회논문지
    • /
    • 제7권4호
    • /
    • pp.1050-1061
    • /
    • 2000
  • This paper presents a new object model, LOM(Lightweight Object Model) and an implementation method for the distributed trader in heterogeneous distributed computing environment including mobile network. Trader is third party object that enables clients to find suitable servers, which provide the most appropriate services to client in distributed environment including dynamic reconfiguration of services and servers. Trading service requires simpler and more specific object model than genetic object models which provide richer multimedia data types and semantic characteristics with complex data structures. LOM supports a new reference attribute type instead of the relationship, inheritance and composite attribute types of the general object oriented models and so LOM has simple data structures. Also in LOM, the modelling step includes specifying of the information about users and the access right to objects for security in the mobile environment and development of the distributed storage for trading service. Also, we propose and implementation method of the distributed trader, which integrates the LOM-information object model and the OMG (object Management Group) computational object model.

  • PDF

Distributed Incremental Approximate Frequent Itemset Mining Using MapReduce

  • Mohsin Shaikh;Irfan Ali Tunio;Syed Muhammad Shehram Shah;Fareesa Khan Sohu;Abdul Aziz;Ahmad Ali
    • International Journal of Computer Science & Network Security
    • /
    • 제23권5호
    • /
    • pp.207-211
    • /
    • 2023
  • Traditional methods for datamining typically assume that the data is small, centralized, memory resident and static. But this assumption is no longer acceptable, because datasets are growing very fast hence becoming huge from time to time. There is fast growing need to manage data with efficient mining algorithms. In such a scenario it is inevitable to carry out data mining in a distributed environment and Frequent Itemset Mining (FIM) is no exception. Thus, the need of an efficient incremental mining algorithm arises. We propose the Distributed Incremental Approximate Frequent Itemset Mining (DIAFIM) which is an incremental FIM algorithm and works on the distributed parallel MapReduce environment. The key contribution of this research is devising an incremental mining algorithm that works on the distributed parallel MapReduce environment.

스마트 팩토리 환경에서의 GlusterFS 기반 빅데이터 분산 처리 시스템 설계 (Design of GlusterFS Based Big Data Distributed Processing System in Smart Factory)

  • 이협건;김영운;김기영;최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.70-75
    • /
    • 2018
  • 스마트 팩토리는 설계 개발, 제조, 유통 물류 등 생산 전체 과정에 정보 통신 기술을 적용하여 생산성, 품질, 고객만족도 등을 향상시킬 수 있는 지능형 공장이다. 스마트 팩토리에서 발생되는 데이터의 양은 공장의 규모 및 시설 수준에 따라 많은 차이를 보이지만, 기존의 생산관리시스템을 활용하여 방대한 양의 데이터를 발생시키는 스마트 팩토리 환경에 적용하기에 어려움이 있다. 이로 인해 방대한 양의 빅데이터 처리할 수 있는 빅데이터 분산 처리 시스템의 필요성이 요구되고 있다. 따라서 본 논문에서는 스마트 팩토리 환경에서의 GlusterFS 기반 빅데이터 분산 처리 시스템 설계하였다. 제안하는 빅데이터 분산 처리 시스템은 기존 분산 처리 시스템에 비해 네트워크 트래픽 분산 및 관리를 통해 부하와 데이터 소실 위험도를 감소시켰다.

A Differential Data Replicator in Distributed Environments

  • Lee, Wookey;Park, Jooseok;Sukho Kang
    • 정보기술과데이타베이스저널
    • /
    • 제3권2호
    • /
    • pp.3-24
    • /
    • 1996
  • In this paper a data replicator scheme with a distributed join architecture is suggested with its cost functions and the performance results. The contribution of this scheme is not only minimizing the number of base relation locks in distributed database tables but also reducing the remote transmission amount remarkably, which will be able to embellish the distributed databse system practical. The differential files that are derived from the active log of the DBMS are mainly forcing the scheme to reduce the number of base relation locks. The amount of transportation between relevant sites could be curtailed by the tuple reduction procedures. Then we prescribe an algorithm of data replicator with its cost function and show the performance results compared with the semi-join scheme in their distributed environments.

  • PDF

분산된 데이터마이닝을 위한 프레임워크의 설계 및 구현 (Design and Implementation of a Distributed Data Mining Framework)

  • Kadel, Prakash;Choi, Ho-Jin
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.336-340
    • /
    • 2007
  • We envisage that grid computing environments allow us to implement distributed data mining services, that is, those applications which analyze large sets of geographically distributed databases and information using the computational power and resources of a grid environment. This paper describes an experimental framework towards such a distributed data mining approach, including design considerations and a prototype implementation. Based on the "Knowledge Grid" architecture suggested by Cannataro et al., we identify four major components - user node, broker node, data node, and computation node - and define their individual roles. For implementing the prototype, we have investigated methods for utilizing distributed resources within a grid computing environment, e.g., communication and coordination among the various resources available.

  • PDF

분산 공간 데이터 스트림 처리에서 질의 영역의 겹침을 고려한 공간 연산 배치 기법 (Spatial Operation Allocation Scheme over Common Query Regions for Distributed Spatial Data Stream Processing)

  • 정원일
    • 한국산학기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.2713-2719
    • /
    • 2012
  • 위치를 기반으로 하는 서비스가 다양해짐에 따라 고가용성과 고확장성을 제공하기 위한 분산 데이터 스트림 처리 기법에 대한 연구가 널리 수행되고 있다. 기존 연구는 분산된 노드들에서 부하의 균형을 유지하기 위해 공간 데이터 스트림의 지리적인 특성을 고려하지 않고 있어 공간적으로 인접한 연산을 수행함에 있어 전체 시스템의 부하를 증가시키고 있다. 본 논문에서는 분산 환경의 공간 데이터 스트림을 처리하기 위해 공간 영역의 겹침을 고려한 연산배치 기법을 제안한다. 제안 기법에서는 인접한 공간 영역을 대상으로 하는 연산을 효율적으로 분리하기 위해 질의 영역이 겹치는 부분의 연산을 우선적으로 동일 노드에 분배하여 중복 영역에 대한 공유의 최대화를 보장한다.

클라우딩 기반에서 클라이언트와 서버간 협상을 위한 자가 조직 저장매체의 DDMPF(Distributed Data Management Protocol using FAT) 설계 (A DDMPF(Distributed Data Management Protocol using FAT) Design of Self-organized Storage for Negotiation among a Client and Servers based on Clouding)

  • 이병관;정은희;양승해
    • 한국멀티미디어학회논문지
    • /
    • 제15권8호
    • /
    • pp.1048-1058
    • /
    • 2012
  • 본 논문은 클라우딩 환경에서 클라이언트와 저장 서버, 검증 서버로 구성하여 자가 조직 저장 매체의 데이터 손실을 방지하고, 보안을 유지하기 위한 DDMPF( Distributed Data Management Protocol using FAT)을 제안한다. DDMPF는 클라우드 컴퓨팅 환경에서 자가 조직 저장 서버를 구축하고, 데이터를 분할하여 저장 서버에 분산 저장함으로써 기존의 클라우딩 저장 매체의 중앙 집중화 문제와 저장 서버 문제로 인한 데이터 손실 문제를 해결하였고, 파일할당테이블을 이용해 분산 저장된 데이터 관리의 효율성도 향상시켰다. 그리고 DDMPF는 저장 서버의 데이터 무결성을 검증 서버가 검증함으로써 데이터의 신뢰성을 향상시키고, 클라이언트의 비밀키와 EC-DH 알고리즘을 이용하여 생성된 시스템 마스터 키로 이중 암호화하여 전송함으로써 보안을 강화시켰다. 또한, 자가 조직 저장 매체를 구성할 때, 검증서버의 개수를 제한하고, 검증요청메시지에 대한 TS(Time Stamp)을 설정함으로써 플러딩 공격 탐지하였고, 검증을 요청할 때마다 새롭게 생성된 nonce 값을 이용하여 재전송 공격을 탐지하도록 하였다.

DISTRIBUTED WEB GIS SERVICE BASED ON XML AND INTEROPERABILITY

  • Kim, Do-Hyun
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2002년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.145-150
    • /
    • 2002
  • Web GIS (Geographic Information Systems) service systems provide the various GIS services of analyzing and displaying the spatial data with friendly user-interface. These services are expanding the business domain and many users want to access the distributed various spatial data. But, it is difficult to access diverse data sources because of different spatial data format and data access methods. In this paper, we design and implement web GIS services based on the inter-operability and GML (Geography Markup Language) of OGC(Open GIS Consortium) in web distributed environment. Inter-operability provides unique accessing method to distributed data sources based on OLE DB technology of Microsoft. In addition, GML support web GIS services based on XML. We design these GIS services as components using UML (Unified Modeling Language) of an object-oriented modeling language for specifying, visualizing, constructing, and documenting the artifacts of software system. In addition, they also were developed in object-oriented computing environment, and it provides the interoperability, language-independent, easy developing environment as well as re-usability.

  • PDF

Design and evaluation of a GQS-based time-critical event dissemination for distributed clouds

  • Bae, Ihn-Han
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.989-998
    • /
    • 2011
  • Cloud computing provides computation, software, data access, and storage services that do not require end-user knowledge of the physical location and configuration of the system that delivers the services. Cloud computing providers have setup several data centers at different geographical locations over the Internet in order to optimally serve needs of their customers around the world. One of the fundamental challenges in geographically distributed clouds is to provide efficient algorithms for supporting inter-cloud data management and dissemination. In this paper, we propose a group quorum system (GQS)-based dissemination for improving the interoperability of inter-cloud in time-critical event dissemination service, such as computing policy updating, message sharing, event notification and so forth. The proposed GQS-based method organizes these distributed clouds into a group quorum ring overlay to support a constant event dissemination latency. Our numerical results show that the GQS-based method improves the efficiency as compared with Chord-based and Plume methods.