• 제목/요약/키워드: Distributed Data Analysis

검색결과 2,350건 처리시간 0.032초

스마트 팩토리 환경에서의 GlusterFS 기반 빅데이터 분산 처리 시스템 설계 (Design of GlusterFS Based Big Data Distributed Processing System in Smart Factory)

  • 이협건;김영운;김기영;최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.70-75
    • /
    • 2018
  • 스마트 팩토리는 설계 개발, 제조, 유통 물류 등 생산 전체 과정에 정보 통신 기술을 적용하여 생산성, 품질, 고객만족도 등을 향상시킬 수 있는 지능형 공장이다. 스마트 팩토리에서 발생되는 데이터의 양은 공장의 규모 및 시설 수준에 따라 많은 차이를 보이지만, 기존의 생산관리시스템을 활용하여 방대한 양의 데이터를 발생시키는 스마트 팩토리 환경에 적용하기에 어려움이 있다. 이로 인해 방대한 양의 빅데이터 처리할 수 있는 빅데이터 분산 처리 시스템의 필요성이 요구되고 있다. 따라서 본 논문에서는 스마트 팩토리 환경에서의 GlusterFS 기반 빅데이터 분산 처리 시스템 설계하였다. 제안하는 빅데이터 분산 처리 시스템은 기존 분산 처리 시스템에 비해 네트워크 트래픽 분산 및 관리를 통해 부하와 데이터 소실 위험도를 감소시켰다.

고성능 자원정보서비스 구축을 위한 복합 모델 기반 분산 디렉토리의 성능 분석 (Performance Analysis of the Composite Distributed Directories for High Performance Grid Information Services)

  • 권성호;김희철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.3-6
    • /
    • 2003
  • In this paper, we conduct a performance analysis for the composite scheme that is obtained by combining the data distribution and the data replication schemes usually used for the implementation of distributed directory service systems. The analysis results reveal that the composite model is a viable option to overcome the performance trade-off between the data distribution and the data replication model. In this paper, we present the performance model developed for the composite model by appling queuing modelling. Using the performance model, performance values for a variety of system execution environments are suggested which enable us to bring an efficient design for high performance distributed directories.

  • PDF

다분야통합최적설계를 위한 데이터 서버 중심의 컴퓨팅 기반구조 (Data Server Oriented Computing Infrastructure for Process Integration and Multidisciplinary Design Optimization)

  • 홍은지;이세정;이재호;김승민
    • 한국CDE학회논문집
    • /
    • 제8권4호
    • /
    • pp.231-242
    • /
    • 2003
  • Multidisciplinary Design Optimization (MDO) is an optimization technique considering simultaneously multiple disciplines such as dynamics, mechanics, structural analysis, thermal and fluid analysis and electromagnetic analysis. A software system enabling multidisciplinary design optimization is called MDO framework. An MDO framework provides an integrated and automated design environment that increases product quality and reliability, and decreases design cycle time and cost. The MDO framework also works as a common collaborative workspace for design experts on multiple disciplines. In this paper, we present the architecture for an MDO framework along with the requirement analysis for the framework. The requirement analysis has been performed through interviews of design experts in industry and thus we claim that it reflects the real needs in industry. The requirements include integrated design environment, friendly user interface, highly extensible open architecture, distributed design environment, application program interface, and efficient data management to handle massive design data. The resultant MDO framework is datasever-oriented and designed around a centralized data server for extensible and effective data exchange in a distributed design environment among multiple design tools and software.

빅데이터 분산처리시스템의 품질평가모델 (A Quality Evaluation Model for Distributed Processing Systems of Big Data)

  • 최승준;박제원;김종배;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.533-545
    • /
    • 2014
  • IT기술이 발전함에 따라, 우리가 접하는 데이터의 양은 기하급수적으로 늘어나고 있다. 이처럼 방대한 데이터들을 분석하고 관리하기 위한 기술로 등장한 것이 빅데이터 분산처리시스템이다. 기존 분산처리시스템에 대한 품질평가는 정형 데이터 중심의 환경을 바탕으로 이루어져 왔다. 그러므로, 이를 비정형 데이터 분석이 핵심인 빅데이터 분산처리시스템에 그대로 적용시킬 경우, 정확한 품질평가가 이루어질 수 없다. 따라서, 빅데이터 분석 환경을 고려한 분산처리시스템의 품질평가모델에 대한 연구가 필요하다. 본 논문에서는 소프트웨어 품질에 관한 국제 표준인 ISO/IEC9126에 근거하여 빅데이터 분산처리 시스템에서 요구되는 품질평가 요소를 도출하고, 이를 측정하기 위한 메트릭을 정의함으로써 새로이 품질평가모델을 제안한다.

중소병원에서의 빅데이터 분석을 위한 분산 노드 관리 방안 (Management of Distributed Nodes for Big Data Analysis in Small-and-Medium Sized Hospital)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.376-377
    • /
    • 2016
  • 빅데이터 분석을 위한 분산 데이터 처리 기술인 하둡 프레임워크의 성능은 데이터를 저장하고 맵리듀스를 수행하는 분산 노드 각각의 성능 및 네트워크의 성능 등의 요소에 영향을 받는다. 본 논문에서는 기존 하둡에서의 분산 노드 관리 기법을 분석하고, 중소병원의 전산 시스템 환경을 고려하여 중소규모의 병원에서 하둡을 도입하기 위해 필요한 분산 노드 관리 기법을 제시한다.

  • PDF

천문학에서의 대용량 자료 분석 (Analysis of massive data in astronomy)

  • 신민수
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1107-1116
    • /
    • 2016
  • 최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석 환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

원자력 발전소 분산 제어 시스템을 위한 네트워크의 실시간 특성 해석 (Real-Time Characteristic Analysis of a DCS Communication Network for Nuclear Power Plants)

  • 이성우;임한석
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권5호
    • /
    • pp.650-657
    • /
    • 1999
  • In this paper, a real-time communication method using a PICNET-NP(Plant Instrumentation and Control Network for Nuclear Power plant) is proposed with an analysis of the control network requirements of DCS(Distributed Control System) in unclear power plants. The method satisfies deadline in case of worst data traffics by considering aperiodic and periodic real-time data and others.

  • PDF

A Distributed Privacy-Utility Tradeoff Method Using Distributed Lossy Source Coding with Side Information

  • Gu, Yonghao;Wang, Yongfei;Yang, Zhen;Gao, Yimu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권5호
    • /
    • pp.2778-2791
    • /
    • 2017
  • In the age of big data, distributed data providers need to ensure the privacy, while data analysts need to mine the value of data. Therefore, how to find the privacy-utility tradeoff has become a research hotspot. Besides, the adversary may have the background knowledge of the data source. Therefore, it is significant to solve the privacy-utility tradeoff problem in the distributed environment with side information. This paper proposes a distributed privacy-utility tradeoff method using distributed lossy source coding with side information, and quantitatively gives the privacy-utility tradeoff region and Rate-Distortion-Leakage region. Four results are shown in the simulation analysis. The first result is that both the source rate and the privacy leakage decrease with the increase of source distortion. The second result is that the finer relevance between the public data and private data of source, the finer perturbation of source needed to get the same privacy protection. The third result is that the greater the variance of the data source, the slighter distortion is chosen to ensure more data utility. The fourth result is that under the same privacy restriction, the slighter the variance of the side information, the less distortion of data source is chosen to ensure more data utility. Finally, the provided method is compared with current ones from five aspects to show the advantage of our method.

SparkR을 이용한 R 기반 빅데이터 분석의 분산 처리 (Distributed Processing of Big Data Analysis based on R using SparkR)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.161-166
    • /
    • 2022
  • 본 논문에서는 데이터 분석 도구인 R을 이용하여 빅데이터 분석을 수행할 때 발생하는 문제점을 분석하고, 빅데이터의 분산 처리를 효과적으로 지원하는 스파크와 R을 연계한 SparkR을 이용한 분석의 유용성을 제시하고자 한다. 먼저, 대량의 데이터를 로딩하고 연산을 수행할 때 발생하는 R의 메모리 할당 문제점과 R과 비교한 SparkR의 특징 및 프로그래밍 환경을 분석한다. 그리고, 선형 회귀 분석을 각각의 환경에서 수행할 때의 실행 성능을 비교 분석한다. 분석 결과 SparkR을 통해 추가적인 언어 학습 없이도 R을 그대로 이용하여 데이터 분석에 활용할 수 있음을 보였으며, SparkR을 이용하여 R로 작성된 코드를 클러스터 내 노드 수의 증가에 따라 효과적으로 분산 처리할 수 있었다.

Comparison of Distributed and Parallel NGS Data Analysis Methods based on Cloud Computing

  • Kang, Hyungil;Kim, Sangsoo
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.34-38
    • /
    • 2018
  • With the rapid growth of genomic data, new requirements have emerged that are difficult to handle with big data storage and analysis techniques. Regardless of the size of an organization performing genomic data analysis, it is becoming increasingly difficult for an institution to build a computing environment for storing and analyzing genomic data. Recently, cloud computing has emerged as a computing environment that meets these new requirements. In this paper, we analyze and compare existing distributed and parallel NGS (Next Generation Sequencing) analysis based on cloud computing environment for future research.