• Title/Summary/Keyword: 데이터 분산

Search Result 3,169, Processing Time 0.039 seconds

Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient (다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가)

  • Lee, Sun Mi;Park, Inhwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

Optimization and Performance Analysis of Cloud Computing Platform for Distributed Processing of Big Data (대용량 데이터의 분산 처리를 위한 클라우드 컴퓨팅 환경 최적화 및 성능평가)

  • Hong, Seung-Tae;Shin, Young-Sung;Chang, Jae-Woo
    • Spatial Information Research
    • /
    • v.19 no.4
    • /
    • pp.55-71
    • /
    • 2011
  • Recently, interest in cloud computing which provides IT resources as service form in IT field is increasing. As a result, much research has been done on the distributed data processing that store and manage a large amount of data in many servers. Meanwhile, in order to effectively utilize the spatial data which is rapidly increasing day by day with the growth of GIS technology, distributed processing of spatial data using cloud computing is essential. Therefore, in this paper, we review the representative distributed data processing techniques and we analyze the optimization requirements for performance improvement of the distributed processing techniques for a large amount of data. In addition, we uses the Hadoop and we evaluate the performance of the distributed data processing techniques for their optimization requirements.

Performance Analysis of Distributed Parallel Processing Schemes for Large Data in Cloud Computing (클라우드 컴퓨팅에서의 대규모 데이터를 위한 분산 병렬 처리 기법의 성능분석)

  • Hong, Seung-Tae;Chang, Jae-Woo
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.09a
    • /
    • pp.111-118
    • /
    • 2010
  • 최근 IT 분야에서 인터넷을 기반으로 IT 자원들을 서비스 형태로 제공하는 클라우드 컴퓨팅에 대한 연구가 활발히 진행되고 있다. 한편, 효율적인 클라우드 컴퓨팅을 제공하기 위해서는, 막대한 양의 데이터를 수많은 서버들에 분산 처장하고 관리하기 위한 분산 데이터 처장 기법 빛 분산 병렬 처리 기법에 대한 연구가 필수적이다. 이를 위해 본 논문에서는 대표적인 분산 병렬 처리 기법에 대해 살펴보고, 이를 비교 분석한다. 마지막으로 Hadoop 기반 클러스터를 구축하고 이를 통해서 대규모 데이터를 위한 분산 병렬 처리 기법에 대한 성능평가를 수행한다.

  • PDF

Implementation of Multicore-Aware Load Balancing on Clusters through Data Distribution in Chapel (클러스터 상에서 다중 코어 인지 부하 균등화를 위한 Chapel 데이터 분산 구현)

  • Gu, Bon-Gen;Carpenter, Patrick;Yu, Weikuan
    • The KIPS Transactions:PartA
    • /
    • v.19A no.3
    • /
    • pp.129-138
    • /
    • 2012
  • In distributed memory architectures like clusters, each node stores a portion of data. How data is distributed across nodes influences the performance of such systems. The data distribution scheme is the strategy to distribute data across nodes and realize parallel data processing. Due to various reasons such as maintenance, scale up, upgrade, etc., the performance of nodes in a cluster can often become non-identical. In such clusters, data distribution without considering performance cannot efficiently distribute data on nodes. In this paper, we propose a new data distribution scheme based on the number of cores in nodes. We use the number of cores as the performance factor. In our data distribution scheme, each node is allocated an amount of data proportional to the number of cores in it. We implement our data distribution scheme using the Chapel language. To show our data distribution is effective in reducing the execution time of parallel applications, we implement Mandelbrot Set and ${\pi}$-Calculation programs with our data distribution scheme, and compare the execution times on a cluster. Based on experimental results on clusters of 8-core and 16-core nodes, we demonstrate that data distribution based on the number of cores can contribute to a reduction in the execution times of parallel programs on clusters.

The Design of Middleware Components for Updata of Distributed Spatial Databases (분산된 공간 데이터베이스의 변경을 위한 미들웨어 컴포넌트의 설계)

  • 정민규;조대수;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.9-11
    • /
    • 2000
  • 본 논문에서는 공간 데이터가 여러 서버에 분산 저장되어 있을 때, 여러 클라이언트에서 동시에 변경 작업을 수행하기 위한 미들웨어 컴포넌트를 설계한다. OpenGIS 구현 명세에는 변경을 위한 미들웨어 인터페이스가 정의되어 있지 않다. OLE DB 데이터 제공자의 변경 인터페이스 사용을 고려 할 수 있으나, 공간 관련성을 가지는 공간 객체의 특징을 반영하고 협동 작업을 통한 동시성 지원을 위해서는 새로운 인터페이스의 설계가 필요하다. 왜냐하면, 기존의 프로토콜을 이용한 인터페이스 구현으로는 클라이언트가 미들웨어를 통해서 분산된 공간 데이터에 대한 변경 작업 수행이 어렵기 때문이다. 본 논문은 분산된 공간 데이터 변경을 위한 인터페이스를 가진 서비스 제공가작 미들웨어를 통한 분산 공간 데이터 변경 프로토콜을 설계하는 것을 목적으로 한다. 즉, 분산된 공간 데이터의 확장 잠금 기법을 통한 일관성 제어와 협동 변경 트랜잭션에 대한 인터페이스를 정의하고, 분산 환경을 고려한 변경 프로토콜을 설계한다.

  • PDF

Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark (아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화)

  • Myung, Rohyoung;Ahn, Beomjin;Yu, Heonchang
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

A SLA negotiation mechanism to facilitate load balancing in a cloud infrastructure consisting of geographically distributed data centers (지역적 분산 데이터센터 환경에서 부하 분산을 촉진하기 위한 SLA 협상 메커니즘 기반의 클라우드 컴퓨팅)

  • Son, Seok-Ho;Jung, Gi-Hun;Jun, Sung-Chan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.239-241
    • /
    • 2012
  • 최근 클라우드 서비스 공급자들은 세계적으로 증가하는 고객의 수요에 대응하기 위하여, 다양한 지역에 데이터센터들을 구축하고 시스템의 규모를 확장시키고 있다. 클라우드는 통합된 자원을 이용하기 때문에 부하 분산(load balancing)을 통해서 시스템의 성능 및 안정성을 향상시킬 수 있다. 하지만 지역적으로 분산된 데이터센터들을 운영하는 클라우드 컴퓨팅 환경에서는 자원 부하의 분산과 서비스 응답 속도(service response time) 사이의 상관 관계를 고려할 필요가 있다. 그럼에도 불구하고 대부분의 클라우드 서비스 공급자들은 고정된 최소 서비스 응답 속도를 서비스 수준 협약(SLA: Service-Level Agreements)을 제시하고 있는 현실이다. 이와 같이 SLA에 최소 서비스 응답 속도를 임의로 고정할 경우, 거리차이가 있는 데이터센터(SLA에 명시된 응답 속도 보다 느린 데이터센터)에는 부하가 분산되기 어렵다. 따라서 지역적으로 분산된 데이터센터 환경에서는 응답 속도에 대한 가변 SLA를 적용할 필요가 있다. 본 연구에서는 지역적으로 분산된 데이터센터를 운영하는 클라우드 컴퓨팅 환경에서 가변 응답 속도를 적용하기 위한 방법으로써 서비스 응답 속도와 가격을 고려한 자동화된 SLA 협상 메커니즘을 적용하고 그 유효성을 평가하였다. 시뮬레이션을 이용한 실험 결과를 통해서 SLA 협상을 통한 가변 SLA를 이용하는 방법이 고정된 SLA를 이용하는 방법에 비해서 더 높은 SLA 보장률을 지원하고 클라우드 공급자에게 더 높은 수익을 제공함을 확인하였다.

Group Key Establishment Protocol for Efficient Distributed Storage Server Management in Cloud Computing (클라우드 컴퓨팅 환경에서 효율적인 분산 저장 서버 관리를 위한 그룹키 확립 프로토콜)

  • Kim, Su-Hyun;Hong, In-Sik;Lee, Im-Yeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.946-949
    • /
    • 2012
  • 클라우드 컴퓨팅환경에서 사용되는 분산 파일 시스템은 데이터를 저장하는 분산 저장 서버와 각 데이터의 메타데이터를 저장하는 마스터 서버로 구성되어 있다. 마스터 서버와 분산 저장 서버는 수시로 서버의 상태나 메타데이터의 정보를 교환하지만, 통신 시 암호화가 전혀 고려되지 않아, 제 3자에 의한 도청이나 위변조시 사용자의 데이터에 대한 가용성을 보장받지 못할 수 있다. 이에 대한 방지 대책으로 통신 과정을 암호화함으로써 해결할 수 있지만, 무한히 확장 가능한 분산 저장서버에 대해 단일 마스터 서버와의 통신과정을 암호화하게 된다면 수많은 키에 대한 관리 대책을 필요로 하게 된다. 하지만 이 때, 분산저장서버를 하나의 그룹으로 묶어 그룹키를 사용하여 통신과정을 암호화한다면 보다 효율적으로 해결할 수 있다. 따라서 본 논문에서는 분산 저장 서버와 마스터 서버 간 안전하고 효율적인 암호화 통신을 위한 그룹키 확립 프로토콜을 제안하였다.

User Authentication Scheme based on Secret Sharing for Distributed File System in Hadoop (하둡의 분산 파일 시스템 구조를 고려한 비밀분산 기반의 사용자 인증 기법)

  • Kim, Su-Hyun;Lee, Im-Yeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.740-743
    • /
    • 2013
  • 클라우드 컴퓨팅 환경에서는 사용자의 데이터를 수많은 분산서버를 이용하여 데이터를 암호화하여 저장한다. 구글, 야후 등 글로벌 인터넷 서비스 업체들은 인터넷 서비스 플랫폼의 중요성을 인식하고 자체 연구 개발을 수행, 저가 상용 노드를 기반으로 한 대규모 클러스터 기반의 클라우드 컴퓨팅 플랫폼 기술을 개발 활용하고 있다. 이와 같이 분산 컴퓨팅 환경에서 다양한 데이터 서비스가 가능해지면서 대용량 데이터의 분산관리가 주요 이슈로 떠오르고 있다. 한편, 대용량 데이터의 다양한 이용 형태로부터 악의적인 공격자나 내부 사용자에 의한 보안 취약성 및 프라이버시 침해가 발생할 수 있다. 특히, 하둡에서 데이터 블록의 권한 제어를 위해 사용하는 블록 접근 토큰에도 다양한 보안 취약점이 발생한다. 이러한 보안 취약점을 보완하기 위해 본 논문에서는 비밀분산 기반의 블록 접근 토큰 관리 기법을 제안한다.

AMaterialized View Maintenance Methodology for Customer Management in a Distributed Database Environment (분산 데이터베이스 환경에서 고객관리를 위한 실체화된 뷰 유지 방법론)

  • Lee, Hyun-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1851-1854
    • /
    • 2002
  • 일반적으로 고객 관리를 위한 고객 데이터는 운영 시스템 환경 여건상 다양한 분산 데이터베이스 시스템에 저장되어 있다. 이와 같이 분산 저장된 데이터들로부터 고객들의 향후 경향이나 추세 분석 등 의사 결정에 필요한 데이터로 활용하고자 할 때는 데이터베이스에 저장된 대량의 데이터가 고객 분석에 적합한 형태로 구성되어 서비스되어야 한다. 이에 적절한 구조가 데이터 웨어하우스 구조이며, 데이터 웨어하우스는 분산 저장된 각각의 소스들로부터 발생된 변경 정보들을 실시간으로 데이터 웨어하우스에 반영되어야한다. 이렇게 함으로써 정확한 의사 결정을 수행할 수 있게 된다. 이에 본 논문에서는 분산 컴퓨팅 환경에서 고객 관리를 정확하고 효과적으로 이루어질 수 있도록 기본 소스에서 발생된 데이터 변경을 웨어하우스에 실시간으로 전달하여 정확한 데이터를 유지할 수 있는 방법론을 제시하고자 한다. 또한 제시된 방법의 실험 평가 결과를 간략하게 도시하여 나타내었다.

  • PDF