• 제목/요약/키워드: 데이터 분산

검색결과 3,169건 처리시간 0.033초

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

대용량 데이터의 분산 처리를 위한 클라우드 컴퓨팅 환경 최적화 및 성능평가 (Optimization and Performance Analysis of Cloud Computing Platform for Distributed Processing of Big Data)

  • 홍승태;신영성;장재우
    • Spatial Information Research
    • /
    • 제19권4호
    • /
    • pp.55-71
    • /
    • 2011
  • 최근 IT 분야에서 인터넷을 기반으로 IT 자원들을 서비스 형태로 제공하는 클라우드 컴퓨팅에 대한 관심이 증대되고 있으며, 이에 따라 대규모 데이터를 수많은 서버들에 분산 저장하고 관리하기 위한 분산 데이터 처리 기법에 대한 연구가 활발히 진행되고 있다. 한편 GIS 기술의 성장과 더불어 급격히 증가하고 있는 공간 데이터를 효율적으로 활용하기 위해서는, 클라우드 컴퓨팅을 이용한 대용량 공간데이터의 분산 처리가 필수적이다. 이를 위해 본 논문에서는 대표적인 분산 데이터 처리 기법에 대해 살펴보고, 분산 데이터 처리 기법 성능 개선을 위한 최적화 요구사항을 분석한다. 마지막으로 Hadoop 기반 클러스터를 구축하고 이를 통해서 분산 데이터 처리 기법의 성능 최적화에 대한 성능평가를 수행한다.

클라우드 컴퓨팅에서의 대규모 데이터를 위한 분산 병렬 처리 기법의 성능분석 (Performance Analysis of Distributed Parallel Processing Schemes for Large Data in Cloud Computing)

  • 홍승태;장재우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 추계학술대회
    • /
    • pp.111-118
    • /
    • 2010
  • 최근 IT 분야에서 인터넷을 기반으로 IT 자원들을 서비스 형태로 제공하는 클라우드 컴퓨팅에 대한 연구가 활발히 진행되고 있다. 한편, 효율적인 클라우드 컴퓨팅을 제공하기 위해서는, 막대한 양의 데이터를 수많은 서버들에 분산 처장하고 관리하기 위한 분산 데이터 처장 기법 빛 분산 병렬 처리 기법에 대한 연구가 필수적이다. 이를 위해 본 논문에서는 대표적인 분산 병렬 처리 기법에 대해 살펴보고, 이를 비교 분석한다. 마지막으로 Hadoop 기반 클러스터를 구축하고 이를 통해서 대규모 데이터를 위한 분산 병렬 처리 기법에 대한 성능평가를 수행한다.

  • PDF

클러스터 상에서 다중 코어 인지 부하 균등화를 위한 Chapel 데이터 분산 구현 (Implementation of Multicore-Aware Load Balancing on Clusters through Data Distribution in Chapel)

  • 구본근
    • 정보처리학회논문지A
    • /
    • 제19A권3호
    • /
    • pp.129-138
    • /
    • 2012
  • 클러스터와 같은 분산 메모리 구조에서 각 노드는 전체 데이터의 일부분을 저장하고 있다. 이러한 구조에서는 데이터를 각 노드에 분산시키는 방법이 성능에 영향을 준다. 데이터 분산 정책은 데이터를 노드들에게 분산시켜 병렬 데이터 처리를 실현하는 정책이다. 클러스터 관리, 확장, 업그레이드 등 다양한 요인으로 인해 클러스터의 각 노드 성능이 동일하지 않을 수 있다. 이러한 클러스터에서 노드의 성능을 고려하지 않은 데이터 분산 정책은 데이터를 각 노드에 효율적으로 분산시키지 못할 수 있다. 본 논문에서는 각 노드의 성능을 나타내는 인자로 노드에 장착되어 있는 프로세서의 코어 수를 이용하고, 이를 고려한 데이터 분산 정책을 제안한다. 본 논문에서 제안하는 데이터 분산 정책에서는 전체 코어 수 대비 노드에 장착된 코어 수에 비례하여 데이터를 노드에 분산 저장하도록 할당을 한다. 또, 본 논문에서 제안하는 데이터 분산 정책을 Chapel 언어를 이용하여 구현하였다. 본 논문에서 제안하는 데이터 분산 정책이 효과적임을 입증하기 위해 이 정책을 이용하여 Mandelbrot 집합과 원주율을 계산하는 병렬 프로그램을 작성하고, 클러스터에서 실행하여 실행 시간을 비교한다. 8-코어와 16-코어로 구성되어 있는 클러스터에서 수행한 결과에 의하면 노드의 코어 수를 기반으로 한 데이터 분산 정책이 병렬 프로그램의 수행 시간 감소에 기여하였다.

분산된 공간 데이터베이스의 변경을 위한 미들웨어 컴포넌트의 설계 (The Design of Middleware Components for Updata of Distributed Spatial Databases)

  • 정민규;조대수;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.9-11
    • /
    • 2000
  • 본 논문에서는 공간 데이터가 여러 서버에 분산 저장되어 있을 때, 여러 클라이언트에서 동시에 변경 작업을 수행하기 위한 미들웨어 컴포넌트를 설계한다. OpenGIS 구현 명세에는 변경을 위한 미들웨어 인터페이스가 정의되어 있지 않다. OLE DB 데이터 제공자의 변경 인터페이스 사용을 고려 할 수 있으나, 공간 관련성을 가지는 공간 객체의 특징을 반영하고 협동 작업을 통한 동시성 지원을 위해서는 새로운 인터페이스의 설계가 필요하다. 왜냐하면, 기존의 프로토콜을 이용한 인터페이스 구현으로는 클라이언트가 미들웨어를 통해서 분산된 공간 데이터에 대한 변경 작업 수행이 어렵기 때문이다. 본 논문은 분산된 공간 데이터 변경을 위한 인터페이스를 가진 서비스 제공가작 미들웨어를 통한 분산 공간 데이터 변경 프로토콜을 설계하는 것을 목적으로 한다. 즉, 분산된 공간 데이터의 확장 잠금 기법을 통한 일관성 제어와 협동 변경 트랜잭션에 대한 인터페이스를 정의하고, 분산 환경을 고려한 변경 프로토콜을 설계한다.

  • PDF

아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화 (Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark)

  • 명노영;안범진;유헌창
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

지역적 분산 데이터센터 환경에서 부하 분산을 촉진하기 위한 SLA 협상 메커니즘 기반의 클라우드 컴퓨팅 (A SLA negotiation mechanism to facilitate load balancing in a cloud infrastructure consisting of geographically distributed data centers)

  • 손석호;정기훈;전성찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.239-241
    • /
    • 2012
  • 최근 클라우드 서비스 공급자들은 세계적으로 증가하는 고객의 수요에 대응하기 위하여, 다양한 지역에 데이터센터들을 구축하고 시스템의 규모를 확장시키고 있다. 클라우드는 통합된 자원을 이용하기 때문에 부하 분산(load balancing)을 통해서 시스템의 성능 및 안정성을 향상시킬 수 있다. 하지만 지역적으로 분산된 데이터센터들을 운영하는 클라우드 컴퓨팅 환경에서는 자원 부하의 분산과 서비스 응답 속도(service response time) 사이의 상관 관계를 고려할 필요가 있다. 그럼에도 불구하고 대부분의 클라우드 서비스 공급자들은 고정된 최소 서비스 응답 속도를 서비스 수준 협약(SLA: Service-Level Agreements)을 제시하고 있는 현실이다. 이와 같이 SLA에 최소 서비스 응답 속도를 임의로 고정할 경우, 거리차이가 있는 데이터센터(SLA에 명시된 응답 속도 보다 느린 데이터센터)에는 부하가 분산되기 어렵다. 따라서 지역적으로 분산된 데이터센터 환경에서는 응답 속도에 대한 가변 SLA를 적용할 필요가 있다. 본 연구에서는 지역적으로 분산된 데이터센터를 운영하는 클라우드 컴퓨팅 환경에서 가변 응답 속도를 적용하기 위한 방법으로써 서비스 응답 속도와 가격을 고려한 자동화된 SLA 협상 메커니즘을 적용하고 그 유효성을 평가하였다. 시뮬레이션을 이용한 실험 결과를 통해서 SLA 협상을 통한 가변 SLA를 이용하는 방법이 고정된 SLA를 이용하는 방법에 비해서 더 높은 SLA 보장률을 지원하고 클라우드 공급자에게 더 높은 수익을 제공함을 확인하였다.

클라우드 컴퓨팅 환경에서 효율적인 분산 저장 서버 관리를 위한 그룹키 확립 프로토콜 (Group Key Establishment Protocol for Efficient Distributed Storage Server Management in Cloud Computing)

  • 김수현;홍인식;이임영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.946-949
    • /
    • 2012
  • 클라우드 컴퓨팅환경에서 사용되는 분산 파일 시스템은 데이터를 저장하는 분산 저장 서버와 각 데이터의 메타데이터를 저장하는 마스터 서버로 구성되어 있다. 마스터 서버와 분산 저장 서버는 수시로 서버의 상태나 메타데이터의 정보를 교환하지만, 통신 시 암호화가 전혀 고려되지 않아, 제 3자에 의한 도청이나 위변조시 사용자의 데이터에 대한 가용성을 보장받지 못할 수 있다. 이에 대한 방지 대책으로 통신 과정을 암호화함으로써 해결할 수 있지만, 무한히 확장 가능한 분산 저장서버에 대해 단일 마스터 서버와의 통신과정을 암호화하게 된다면 수많은 키에 대한 관리 대책을 필요로 하게 된다. 하지만 이 때, 분산저장서버를 하나의 그룹으로 묶어 그룹키를 사용하여 통신과정을 암호화한다면 보다 효율적으로 해결할 수 있다. 따라서 본 논문에서는 분산 저장 서버와 마스터 서버 간 안전하고 효율적인 암호화 통신을 위한 그룹키 확립 프로토콜을 제안하였다.

하둡의 분산 파일 시스템 구조를 고려한 비밀분산 기반의 사용자 인증 기법 (User Authentication Scheme based on Secret Sharing for Distributed File System in Hadoop)

  • 김수현;이임영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.740-743
    • /
    • 2013
  • 클라우드 컴퓨팅 환경에서는 사용자의 데이터를 수많은 분산서버를 이용하여 데이터를 암호화하여 저장한다. 구글, 야후 등 글로벌 인터넷 서비스 업체들은 인터넷 서비스 플랫폼의 중요성을 인식하고 자체 연구 개발을 수행, 저가 상용 노드를 기반으로 한 대규모 클러스터 기반의 클라우드 컴퓨팅 플랫폼 기술을 개발 활용하고 있다. 이와 같이 분산 컴퓨팅 환경에서 다양한 데이터 서비스가 가능해지면서 대용량 데이터의 분산관리가 주요 이슈로 떠오르고 있다. 한편, 대용량 데이터의 다양한 이용 형태로부터 악의적인 공격자나 내부 사용자에 의한 보안 취약성 및 프라이버시 침해가 발생할 수 있다. 특히, 하둡에서 데이터 블록의 권한 제어를 위해 사용하는 블록 접근 토큰에도 다양한 보안 취약점이 발생한다. 이러한 보안 취약점을 보완하기 위해 본 논문에서는 비밀분산 기반의 블록 접근 토큰 관리 기법을 제안한다.

분산 데이터베이스 환경에서 고객관리를 위한 실체화된 뷰 유지 방법론 (AMaterialized View Maintenance Methodology for Customer Management in a Distributed Database Environment)

  • 이현창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1851-1854
    • /
    • 2002
  • 일반적으로 고객 관리를 위한 고객 데이터는 운영 시스템 환경 여건상 다양한 분산 데이터베이스 시스템에 저장되어 있다. 이와 같이 분산 저장된 데이터들로부터 고객들의 향후 경향이나 추세 분석 등 의사 결정에 필요한 데이터로 활용하고자 할 때는 데이터베이스에 저장된 대량의 데이터가 고객 분석에 적합한 형태로 구성되어 서비스되어야 한다. 이에 적절한 구조가 데이터 웨어하우스 구조이며, 데이터 웨어하우스는 분산 저장된 각각의 소스들로부터 발생된 변경 정보들을 실시간으로 데이터 웨어하우스에 반영되어야한다. 이렇게 함으로써 정확한 의사 결정을 수행할 수 있게 된다. 이에 본 논문에서는 분산 컴퓨팅 환경에서 고객 관리를 정확하고 효과적으로 이루어질 수 있도록 기본 소스에서 발생된 데이터 변경을 웨어하우스에 실시간으로 전달하여 정확한 데이터를 유지할 수 있는 방법론을 제시하고자 한다. 또한 제시된 방법의 실험 평가 결과를 간략하게 도시하여 나타내었다.

  • PDF