• 제목/요약/키워드: Distributed Data Analysis

검색결과 2,350건 처리시간 0.03초

Adaptive and optimized agent placement scheme for parallel agent-based simulation

  • Jin, Ki-Sung;Lee, Sang-Min;Kim, Young-Chul
    • ETRI Journal
    • /
    • 제44권2호
    • /
    • pp.313-326
    • /
    • 2022
  • This study presents a noble scheme for distributed and parallel simulations with optimized agent placement for simulation instances. The traditional parallel simulation has some limitations in that it does not provide sufficient performance even though using multiple resources. The main reason for this discrepancy is that supporting parallelism inevitably requires additional costs in addition to the base simulation cost. We present a comprehensive study of parallel simulation architectures, execution flows, and characteristics. Then, we identify critical challenges for optimizing large simulations for parallel instances. Based on our cost-benefit analysis, we propose a novel approach to overcome the performance constraints of agent-based parallel simulations. We also propose a solution for eliminating the synchronizing cost among local instances. Our method ensures balanced performance through optimal deployment of agents to local instances and an adaptive agent placement scheme according to the simulation load. Additionally, our empirical evaluation reveals that the proposed model achieves better performance than conventional methods under several conditions.

통합수문모형을 이용한 제주 한천유역의 지하수 변동 특성 모의 (Simulation of Groundwater Variation Characteristics of Hancheon Watershed in Jeju Island using Integrated Hydrologic Modeling)

  • 김남원;나한나;정일문
    • 한국환경과학회지
    • /
    • 제22권5호
    • /
    • pp.515-522
    • /
    • 2013
  • To investigate groundwater variation characteristics in the Hancheon watershed, Jeju Island, an integrated hydrologic component analysis was carried out. For this purpose, SWAT-MODFLOW which is an integrated surface-groundwater model was applied to the watershed for continuous watershed hydrologic analysis as well as groundwater modeling. First, ephemeral stream characteristics of Hancheon watershed can be clearly simulated which is unlikely to be shown by a general watershed hydrologic model. Second, the temporally varied groundwater recharge can be properly obtained from SWAT and then spatially distributed groundwater recharge can be made by MODFLOW. Finally, the groundwater level variation was simulated with distributed groundwater pumping data. Since accurate recharge as well as abstraction can be reflected into the groundwater modeling, more realistic hydrologic component analysis and groundwater modeling could be possible.

데이터베이스 시스템에서 디지털 포렌식 조사를 위한 체계적인 데이터 추출 기법 연구 (Research of organized data extraction method for digital investigation in relational database system)

  • 이동찬;이상진
    • 정보보호학회논문지
    • /
    • 제22권3호
    • /
    • pp.565-573
    • /
    • 2012
  • 기업의 탈법, 비리 등 부정행위를 조사할 경우 인사, 회계, 물류, 생산 등의 업무데이터(Business Data)의 확보가 필요하다. 다수의 기업들은 분산된 업무 데이터를 데이터베이스(Database)화하여 통합적으로 관리하고 있기 때문에 디지털 포렌식 조사를 위하여 데이터베이스에 대한 체계적인 업무데이터 추출기법 연구가 중요하다. 일반적인 정보체계 환경에서 데이터베이스는 상위 어플리케이션 및 대용량 파일 서버와 통합된 정보체계 내의 부분적 형태로 존재한다. 또한 사용자가 입력한 원시 업무 데이터는 정규화 과정을 거친 테이블 설계에 의해 하나 이상의 테이블에 분산되어 저장된다. 기존 데이터베이스 구조 분석에 관한 연구들은 데이터베이스의 최적화와 시각화를 위하여 테이블 간 연관관계 분석이 가장 중요한 연구대상이었다. 그러나 원시 업무데이터를 획득해야 하는 디지털 포렌식 관점의 연구는 테이블 간 연관관계 시각화보다 데이터의 해석이 더 중요한 연구대상이다. 본 논문에서는 데이터베이스 내부에서 미리 정의된 테이블 간 연관관계 분석기술뿐만 아니라 도메인 전문 지식(domain knowledge)을 활용한 체계화된 분석절차를 제시하여 데이터베이스에 저장된 원시 업무 데이터 구조를 분석하고 사건관련 데이터를 추출할 수 있는 분석방안을 제안한다.

공간 분포된 강우를 사용한 유출 매개변수 추정 및 강우오차가 유출계산에 미치는 영향분석 (A Runoff Parameter Estimation Using Spatially Distributed Rainfall and an Analysis of the Effect of Rainfall Errors on Runoff Computation)

  • 윤용남;김중훈;유철상;김상단
    • 한국수자원학회논문집
    • /
    • 제35권1호
    • /
    • pp.1-12
    • /
    • 2002
  • 본 연구에서는 공간적으로 분포된 강우자료를 바탕으로 한 강우유출관계를 고찰하고, 기존의 공간 평균된 강우유출모형과 비교하여 유역을 공간 평균함으로써 내재되는 불확실성을 분석하여 이를 정량화시킬 수 있는 방법을 모색하였다. 과거 관측된 호우사상을 단순 크리깅 기법을 이용하여 공간적으로 분포된 강우자료를 구축하였다. 공간 분포된 강우와 공간평균강우의 유출을 비교하기 위하여 공간 분포된 강우를 수정 Clark 방법에 의해서 유출계산을 수행한 결과와 지점 강우자료를 추출하여 티센 평균한 공간평균강우를 Clark방법에 의해서 유출 계산한 결과를 서로 비교하였다. 또한 강우의 관측오차와 이로부터 발생되는 유출오차를 정의한 후, 강우관측소의 밀도를 다양하게 변화시켜가며 모의하여 강우의 관측오차가 유출해석에 미치는 영향을 분석하였다. 본 연구결과 다음과 같은 결론을 도출하였다. 1) 공간 분포된 강우자료가 이용될 경우 기존에 추정된 Clark방법 유출 매개변수의 사용이 가능할 것으로 판단된다. 2) 수정 Clark 방법의 경우는 강우는 공간적인 변동성을 고려한 유출 계산이 가능하기 때문에 이에 대한 불확실성이 일부 제거된 상태에서 매개변수 추정이 가능하게 되며, 따라서 전통적인 Clark방법의 경우보다 인정적인 매개변수를 추정할수 있을 것으로 판단된다. 3) 강우오차 및 유출오차는 강우관측소의 밀도가 높아짐에 따라 지수함수적으로 감소하고 있으며, 오차의 범위 또한 밀도가 증가할수록 평균오차 주위로 수렴하는 것으로 보여진다. 4) 강우오차는 강우관측소의 밀도가 작을수록 유출에 보다 큰 영향력을 미치고 있음을 알 수 있었다.

하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법의 설계 및 구현 (Design and Implementation of HDFS Data Encryption Scheme Using ARIA Algorithms on Hadoop)

  • 송영호;신영성;장재우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권2호
    • /
    • pp.33-40
    • /
    • 2016
  • 최근 소셜 네트워크 서비스(SNS)의 발전으로 빅데이터가 출현하였고, 이를 분석하기 위한 분산 병렬 플랫폼으로 하둡이 개발되었다. 하둡을 사용하는 기업은 개인적인 정보가 포함된 데이터를 분석하여 마케팅 등에 활용하고 있다. 이에 따라, 하둡에 저장된 센서티브(sensitive) 데이터의 유출을 방지하기 위한 데이터 암호화 연구가 수행되었다. 하지만 기존 데이터 암호화에 대한 연구는 국외 표준인 AES 암호화 알고리즘만을 지원하는 한계점이 존재한다. 한편 정부에서는 데이터 암호화 알고리즘으로 ARIA 알고리즘을 국내 표준으로 지정하였다. 본 논문에서는 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 첫째, 제안하는 암호화 기법은 하둡의 분산 컴퓨팅 환경에서 ARIA 암호화 및 복호화를 수행하는 HDFS 블록 분할 컴포넌트를 제공한다. 둘째, 제안하는 암호화 기법은 데이터의 마지막 블록이 128비트 단위의 데이터가 아닐 경우, 더미(dummy) 데이터를 추가하여 암호화 및 복호화를 수행하는 가변길이 데이터 처리 컴포넌트를 제공한다. 마지막으로 성능 평가를 통해, 제안하는 ARIA 기반 암호화 기법이 텍스트 문자열 처리 응용 및 과학 데이터 분석 응용에서 효과적으로 사용될 수 있음을 보였다.

유역특성을 반영한 공간격자기반의 분포형모형 개선 (Modification of Spatial Grid Based Distributed Model Considering River Basin Characteristics)

  • 박진혁;허영택
    • 대한토목학회논문집
    • /
    • 제28권3D호
    • /
    • pp.431-436
    • /
    • 2008
  • 최근, GIS기술의 급속한 발전에 따라 다양한 공간 수문 자료들이 속성정보와 결합되어 다루는 것이 가능해졌고, 집중형 유출모형보다 유역 유출량의 시 공간적인 변동을 고려할 수 있는 분포형유출 모형의 구축이 활발하게 연구되고 있다. 본 연구에서는 장기 유출량의 시공간적 분포를 파악할 수 있도록 지표 및 하도흐름해석에 물리적인 운동파(kinematic wave)이론에 근거한 분포형 강우-유출모형을 이용하였다. Hydro-BEAM모형을 근간으로 융설 적설과정 모듈을 추가로 개발하였고, 각종 수문매개변수를 DEM, 토지피복도, 토양도 등의 기본 GIS자료들로 부터 추출, 본 모형의 입력 자료로 사용하였다. 본 모형의 적용성 검증을 위해서 비교적 신뢰할만한 기상자료와 장기간의 수문자료를 보유하고 있는 일본의 쇼나이강 유역(532)을 대상으로 구축하였고, 수문곡선 비교 결과 비교적 재현성 높은 유출 결과를 모의할 수 있었다.

빅 데이터 분석을 위한 지지벡터기계 (Support vector machines for big data analysis)

  • 최호식;박혜원;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.989-998
    • /
    • 2013
  • 최근 산/학계에서 주목받고 있는 빅 데이터는 정의상 한꺼번에 자료를 메모리에 올려 분석할 수 없기 때문에 기존의 데이터마이닝 시대에 개발된 일괄처리 (batch processing) 방식의 알고리즘을 적용할 수 없게 된다. 따라서 가장 시급히 해결해야 하는 문제는 기존의 여러 가지 기계학습방법을 빅 데이터에 적용할 수 있도록 분산처리 (distributed processing)를 수행하는 적절한 알고리즘을 개발하는 것이라 볼 수 있다. 본 논문에서는 분류문제에서 각광받는 지지벡터기계 (support vector machines)의 여러 알고리즘을 살펴보고자 한다. 특히 빅 데이터 분류문제에 유용할 것으로 예상되는 온라인 타입 알고리즘과 병렬처리 알고리즘에 대하여 소개하고, 이러한 알고리즘들의 성능 및 장단점을 선형분류에 대한 모의실험을 통해서 살펴본다.

Implementation of AIoT Edge Cluster System via Distributed Deep Learning Pipeline

  • Jeon, Sung-Ho;Lee, Cheol-Gyu;Lee, Jae-Deok;Kim, Bo-Seok;Kim, Joo-Man
    • International journal of advanced smart convergence
    • /
    • 제10권4호
    • /
    • pp.278-288
    • /
    • 2021
  • Recently, IoT systems are cloud-based, so that continuous and large amounts of data collected from sensor nodes are processed in the data server through the cloud. However, in the centralized configuration of large-scale cloud computing, computational processing must be performed at a physical location where data collection and processing take place, and the need for edge computers to reduce the network load of the cloud system is gradually expanding. In this paper, a cluster system consisting of 6 inexpensive Raspberry Pi boards was constructed to perform fast data processing. And we propose "Kubernetes cluster system(KCS)" for processing large data collection and analysis by model distribution and data pipeline method. To compare the performance of this study, an ensemble model of deep learning was built, and the accuracy, processing performance, and processing time through the proposed KCS system and model distribution were compared and analyzed. As a result, the ensemble model was excellent in accuracy, but the KCS implemented as a data pipeline proved to be superior in processing speed..

병렬 분산파일시스템의 성능 분석을 통한 최적화 연구 (Study of Optimization through Performance Analysis of Parallel Distributed Filesystem)

  • 윤준원;송의성
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권5호
    • /
    • pp.409-416
    • /
    • 2016
  • 최근 빅데이터 이슈가 화두가 됨에 따라 대학, 산업체, 연구소 등에서는 다양한 데이터들을 수집, 분석 하려는 노력이 활성화 되고 있다. 여기에는 과거부터 축적된 데이터, 현재에 바로 분석이 불가능하더라도 잠재적인 의미를 가지고 있는 데이터 등 대량의 데이터들이 수집되어 의미론적인 분석을 통해 가치 있는 분석결과를 얻게 된다. 이를 위해 전 세계적으로 대용량의 데이터 요구를 처리 할 수 있는 고성능 스토리지 시스템의 수요가 증가하고 있다. 또한, 여러 사용자들에게 축적된 대량의 데이터에 동시에 접속하여 다양한 분석을 수행할 수 있도록 안정성 있는 병렬 분산파일시스템을 제공해야 한다. 본 연구에서는 위와 같이 안정성 있는 파일시스템을 제공하기 위해 반드시 고려되어야 할 스토리지 시스템의 I/O 대역폭, 메타데이터의 성능 등을 파악하고 최적의 환경을 구성하기 위한 방법을 제시하고자 한다.

기상레이더와 분포형 모형을 이용한 실시간 유출해석 시스템 개발 및 평가 (Development and Evaluation of a Real Time Runoff Modelling System using Weather Radar and Distributed Model)

  • 최윤석;김경탁;김주훈
    • 한국습지학회지
    • /
    • 제14권3호
    • /
    • pp.385-397
    • /
    • 2012
  • 격자 기반의 물리적 분포형 모형은 유역의 물리적 매개변수와 격자 형식의 공간 및 수문자료를 이용해서 유출해석을 수행한다. 본 연구에서는 격자 기반의 물리적 분포형 강우-유출 모형인 GRM(Grid based Rainfall-runoff Model)의 실시간 유출해석 모듈인 GRM RT(Real Time)를 이용해서 실시간 유출해석 시스템을 개발하였다. 실시간으로 수신되는 기상레이더 자료를 기상청의 실시간 AWS 자료를 이용하여 보정한 후 유출해석에 적용하며, 수위관측소 자료로부터 생성되는 유량자료를 이용해서 유출모형을 실시간 보정한다. 본 연구에서는 실시간 유출해석 시스템 구축을 위해서 필요한 데이터베이스를 설계 및 구현하였으며, 분포형 모형과 레이더 자료를 이용한 실시간 유출해석 절차를 정립하였다. 또한 개발된 시스템의 성능을 평가하고 실시간 모형보정에 대한 적용성을 평가하였다. 소양강댐 상류에 위치한 내린천 수위관측소 유역을 대상으로 실시간 유출해석 시스템을 적용하고 그 결과를 평가하였다.