• 제목/요약/키워드: batch processing

Search Result 297, Processing Time 0.031 seconds

An Empirical Performance Analysis on Hadoop via Optimizing the Network Heartbeat Period

  • Lee, Jaehwan;Choi, June;Roh, Hongchan;Shin, Ji Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.12 no.11
    • /
    • pp.5252-5268
    • /
    • 2018
  • To support a large-scale Hadoop cluster, Hadoop heartbeat messages are designed to deliver the significant messages, including task scheduling and completion messages, via piggybacking to reduce the number of messages received by the NameNode. Although Hadoop is designed and optimized for high-throughput computing via batch processing, the real-time processing of large amounts of data in Hadoop is increasingly important. This paper evaluates Hadoop's performance and costs when the heartbeat period is controlled to support latency sensitive applications. Through an empirical study based on Hadoop 2.0 (YARN) architecture, we improve Hadoop's I/O performance as well as application performance by up to 13 percent compared to the default configuration. We offer a guideline that predicts the performance, costs and limitations of the total system by controlling the heartbeat period using simple equations. We show that Hive performance can be improved by tuning Hadoop's heartbeat periods through extensive experiments.

A study on the application of the shared node policy of the job batch scheduler to maximize the utilization rate of computational resources of cluster system (클러스터 시스템의 계산자원 활용률을 극대화하기 위한 작업배치스케줄러의 공유노드 정책 적용 방안 연구)

  • Kwon, Min-Woo;Yoon, JunWeon;Hong, TaeYoung
    • Annual Conference of KIPS
    • /
    • 2022.05a
    • /
    • pp.4-7
    • /
    • 2022
  • 작업배치스케줄러는 다수의 사용자에게 클러스터 시스템의 계산 자원을 효과적으로 제공하는 유용한 시스템 소프트웨어이다. 한국과학기술정보연구원에서는 작업배치스케줄러인 PBS와 SLURM을 이용하여 슈퍼컴퓨터 5호기 메인시스템인 누리온과 뉴론을 각각 공동활용서비스하고 있다. 본 논문에서는 뉴론의 제한된 계산자원을 다수의 연구자들에게 효율적으로 서비스하기 위해 SLURM 작업배치스케줄러의 공유노드 정책을 적용하는 방안과 작업통계 분석 기법을 소개한다.

Message Batch verification scheme using Bloom Filter in VANET (VANET환경에서 BloomFilter를 이용한 메시지 일괄검증 기법)

  • Kim, Su-Hyun;Lee, Im-Yeong;Park, Doo-Soon
    • Annual Conference of KIPS
    • /
    • 2011.11a
    • /
    • pp.768-769
    • /
    • 2011
  • VANET(Vehicular Ad-hoc Network)는 MANET(Mobile Ad-hoc Network)의 한 형태로, 다수의 차량들이 무선통신을 이용하여 차량 간 통신 또는 차량과 RSU(Road Side Unit)사이의 통신을 제공하는 차세대 네트워킹 기술이다. VANET환경에서 기존의 그룹 서명 방식을 이용한 메시지 서명 및 검증이 이루어진다면, 통신 차량이 많아질수록 오버헤드가 발생하는 단점을 지니고 있다. 이에 따라, 본 논문에서는 다수의 차량 간 통신 시에 보다 효율적인 메시지 검증을 위해 Bloom Filter를 이용한 메시지 일괄 검증 기법을 제안한다.

Design of efficiency monitoring system for managing batch job information (효율적인 배치 작업 정보 관리를 위한 모니터링 시스템 설계)

  • Kim, Sung-Jun;Lee, Jae-Kook;Hong, Tae-Young
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.178-181
    • /
    • 2020
  • 한국과학기술정보연구원에서는 슈퍼컴퓨터 5호기 시스템 및 가속기 기반 시스템을 국내 연구자들에게 서비스를 하고 있다. 시스템 관리자들은 시스템 상태 조회 및 통계 정보 산출등의 목적으로 배치 작업 관리 솔루션에 주기적으로 다양한 정보의 요청을 수행한다. 빈번한 정보 요청은 작업관리 솔루션에 부하를 줄 수 있다. 본 논문에서는 사용자들의 배치 작업 관리를 위해 사용하는 배치 작업 관리 솔루션인 PBSPro와 SLURM을 활용한 효율적인 시스템 모니터링 기법을 설계하고자 한다.

A Study on the Performance Improvement of the SASRec Recommendation Model by Optimizing the Hyperparameters (하이퍼파라미터 최적화를 통한 SASRec 추천 모델 성능 개선 연구)

  • Da-Hun Seong;Yujin Lim
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.657-659
    • /
    • 2023
  • 최근 스마트폰과 같은 디지털 기기의 보급과 함께 개인화, 맞춤형 서비스의 수요가 늘어나면서 추천 서비스가 주목을 받고 있다. 세션 기반(Session based) 추천 시스템은 사용자의 아이템 선호에 따른 순서 정보를 고려한 학습 추천 모델로, 다양한 산업 분야에서 사용되고 있다. 세션 기반 추천 시스템 중 SASRec(Self-Attentive Sequential Recommendation) 모델은 MC/CNN/RNN 기반의 기존 여러 순차 모델들에 비하여 효율적인 성능을 보인다. 본 연구에서는 SASRec 모델의 하이퍼파라미터 중 배치 사이즈(Batch Size), 학습률 (Learning Rate), 히든 유닛(Hidden Unit)을 조정하여 실험함으로써 하이퍼파라미터에 의한 성능 변화를 분석하였다.

A Study of a Method for Maintaining Accuracy Uniformity When Using Long-tailed Dataset (불균형 데이터세트 학습에서 정확도 균일화를 위한 학습 방법에 관한 연구)

  • Geun-pyo Park;XinYu Piao;Jong-Kook Kim
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.585-587
    • /
    • 2023
  • Long-tailed datasets have an imbalanced distribution because they consist of a different number of data samples for each class. However, there are problems of the performance degradation in tail-classes and class-accuracy imbalance for all classes. To address these problems, this paper suggests a learning method for training of long-tailed dataset. The proposed method uses and combines two methods; one is a resampling method to generate a uniform mini-batch to prevent the performance degradation in tail-classes, and the other is a reweighting method to address the accuracy imbalance problem. The purpose of our proposed method is to train the learning models to have uniform accuracy for each class in a long-tailed dataset.

A Performance Analysis of Model Training Due to Different Batch Sizes in Synchronous Distributed Deep Learning Environments (동기식 분산 딥러닝 환경에서 배치 사이즈 변화에 따른 모델 학습 성능 분석)

  • Yerang Kim;HyungJun Kim;Heonchang Yu
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.79-80
    • /
    • 2023
  • 동기식 분산 딥러닝 기법은 그래디언트 계산 작업을 다수의 워커가 나누어 병렬 처리함으로써 모델 학습 과정을 효율적으로 단축시킨다. 배치 사이즈는 이터레이션 단위로 처리하는 데이터 개수를 의미하며, 학습 속도 및 학습 모델의 품질에 영향을 미치는 중요한 요소이다. 멀티 GPU 환경에서 작동하는 분산 학습의 경우, 가용 GPU 메모리 용량이 커짐에 따라 선택 가능한 배치 사이즈의 상한이 증가한다. 하지만 배치 사이즈가 학습 속도 및 학습 모델 품질에 미치는 영향은 GPU 활용률, 총 에포크 수, 모델 파라미터 개수 등 다양한 변수에 영향을 받으므로 최적값을 찾기 쉽지 않다. 본 연구는 동기식 분산 딥러닝 환경에서 실험을 통해 최적의 배치 사이즈 선택에 영향을 미치는 주요 요인을 분석한다.

A Study on Performance Analysis Data Collection Method Using Batch-job Scheduler onLarge-Scale Cluster System (대규모 클러스터 시스템에서 배치작업 스케줄러를 활용한 성능 분석 데이터 수집 방법 연구)

  • Jae-Kook Lee;Min-Woo Kwon;Do-Sik An;Taeyoung Hong
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.37-39
    • /
    • 2023
  • 사용자 응용 프로그램의 특징을 분석하고 효율적인 시스템 운영을 통하여 사용자 프로그램 최적화를 지원하기 위하여 소프트웨어 프로파일링을 수행한다. 특히 국가 슈퍼컴퓨터인 누리온과 같이 8,400대가 넘는 계산노드로 구성된 클러스터 시스템에서 응용 프로그램의 프로파일링 데이터를 사용자의 개입없이 수집하고 데이터를 분석하는 것에는 한계가 있다. 본 연구에서는 배치작업 스케줄러를 활용하여 사용자의 개입 없이 응용 프로그램의 프로파일링 데이터를 수집하기 위한 방법을 제안한다. 그리고 제안한 방법을 누리온에서 구현하고 사용자 응용 프로그램이 실행될 때 프로파일링 데이터가 수집되는 것을 확인한다.

FRRmalloc : Efficient Use-After-Free prevention based on One-time-allocation and batch remapping (FRRmalloc:일회성 할당 및 리매핑 기반의 효율적인 Use-After-Free 방지)

  • Jeong-Hoon Kim;Yeong-Pil Cho
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.386-388
    • /
    • 2024
  • UAF(Use-After-Free)는 heap 영역에서 메모리 오염을 발생시킬 수 있는 취약점이다. UAF를 방지하기 위해 다양한 방법으로 관련 연구가 활발히 이루어지고 있지만, 아직까지 여러 오버헤드 측면에서 모두 좋은 성능을 발휘한 결과는 나오지 않고 있다. 할당자 수준에서의 수정을 통하여, UAF 취약점 방어를 보장하는 동시에 높은 성능과 낮은 오버헤드를 발생시킬 수 있는 방법을 제시한다. 본 논문에서는 UAF 취약점 및 관련 연구를 소개하고, 이를 기반으로 UAF 취약점에 대처할 수 있는 방법을 제시한다.

Environment Construction for Implementation of Grid System META (그리드 시스템 META의 구현을 위한 환경 구축)

  • Lee, Gun-Woo;Ji, Jung-Hoon;Woo, Gyun
    • Annual Conference of KIPS
    • /
    • 2007.05a
    • /
    • pp.781-784
    • /
    • 2007
  • 본 논문에서는 CFD(Computational Fluid Dynamics) 프로그램의 효율적인 수행을 위한 그리드 시스템 META(Metacomputing Environment using Test-run Application)의 구현을 위한 환경 구축에 대해서 기술한다. META는 그리드 시스템을 기반으로 하기 때문에 META의 구현을 위해서는 먼저 그리드 시스템 환경을 구축하여야 한다. 이를 위해 PBS(Portable Batch System), GT4(Globus Toolkit4), MPI(Massage Passing Interface), PVM(Parallel Virtual Machine), PVMmaker 총 5개의 프로그램이 필요하다. PBS는 각 노드로의 작업 분할을, GT4는 그리드 시스템 미들웨어 역할을, MPI와 PVM, PVMmaker는 병렬 프로그래밍 수행 및 컴파일을 위해서 사용이 된다.