• 제목/요약/키워드: Batch processing

검색결과 292건 처리시간 0.038초

An Empirical Performance Analysis on Hadoop via Optimizing the Network Heartbeat Period

  • Lee, Jaehwan;Choi, June;Roh, Hongchan;Shin, Ji Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권11호
    • /
    • pp.5252-5268
    • /
    • 2018
  • To support a large-scale Hadoop cluster, Hadoop heartbeat messages are designed to deliver the significant messages, including task scheduling and completion messages, via piggybacking to reduce the number of messages received by the NameNode. Although Hadoop is designed and optimized for high-throughput computing via batch processing, the real-time processing of large amounts of data in Hadoop is increasingly important. This paper evaluates Hadoop's performance and costs when the heartbeat period is controlled to support latency sensitive applications. Through an empirical study based on Hadoop 2.0 (YARN) architecture, we improve Hadoop's I/O performance as well as application performance by up to 13 percent compared to the default configuration. We offer a guideline that predicts the performance, costs and limitations of the total system by controlling the heartbeat period using simple equations. We show that Hive performance can be improved by tuning Hadoop's heartbeat periods through extensive experiments.

클러스터 시스템의 계산자원 활용률을 극대화하기 위한 작업배치스케줄러의 공유노드 정책 적용 방안 연구 (A study on the application of the shared node policy of the job batch scheduler to maximize the utilization rate of computational resources of cluster system)

  • 권민우;윤준원;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.4-7
    • /
    • 2022
  • 작업배치스케줄러는 다수의 사용자에게 클러스터 시스템의 계산 자원을 효과적으로 제공하는 유용한 시스템 소프트웨어이다. 한국과학기술정보연구원에서는 작업배치스케줄러인 PBS와 SLURM을 이용하여 슈퍼컴퓨터 5호기 메인시스템인 누리온과 뉴론을 각각 공동활용서비스하고 있다. 본 논문에서는 뉴론의 제한된 계산자원을 다수의 연구자들에게 효율적으로 서비스하기 위해 SLURM 작업배치스케줄러의 공유노드 정책을 적용하는 방안과 작업통계 분석 기법을 소개한다.

VANET환경에서 BloomFilter를 이용한 메시지 일괄검증 기법 (Message Batch verification scheme using Bloom Filter in VANET)

  • 김수현;이임영;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.768-769
    • /
    • 2011
  • VANET(Vehicular Ad-hoc Network)는 MANET(Mobile Ad-hoc Network)의 한 형태로, 다수의 차량들이 무선통신을 이용하여 차량 간 통신 또는 차량과 RSU(Road Side Unit)사이의 통신을 제공하는 차세대 네트워킹 기술이다. VANET환경에서 기존의 그룹 서명 방식을 이용한 메시지 서명 및 검증이 이루어진다면, 통신 차량이 많아질수록 오버헤드가 발생하는 단점을 지니고 있다. 이에 따라, 본 논문에서는 다수의 차량 간 통신 시에 보다 효율적인 메시지 검증을 위해 Bloom Filter를 이용한 메시지 일괄 검증 기법을 제안한다.

효율적인 배치 작업 정보 관리를 위한 모니터링 시스템 설계 (Design of efficiency monitoring system for managing batch job information)

  • 김성준;이재국;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.178-181
    • /
    • 2020
  • 한국과학기술정보연구원에서는 슈퍼컴퓨터 5호기 시스템 및 가속기 기반 시스템을 국내 연구자들에게 서비스를 하고 있다. 시스템 관리자들은 시스템 상태 조회 및 통계 정보 산출등의 목적으로 배치 작업 관리 솔루션에 주기적으로 다양한 정보의 요청을 수행한다. 빈번한 정보 요청은 작업관리 솔루션에 부하를 줄 수 있다. 본 논문에서는 사용자들의 배치 작업 관리를 위해 사용하는 배치 작업 관리 솔루션인 PBSPro와 SLURM을 활용한 효율적인 시스템 모니터링 기법을 설계하고자 한다.

하이퍼파라미터 최적화를 통한 SASRec 추천 모델 성능 개선 연구 (A Study on the Performance Improvement of the SASRec Recommendation Model by Optimizing the Hyperparameters)

  • 성다훈;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.657-659
    • /
    • 2023
  • 최근 스마트폰과 같은 디지털 기기의 보급과 함께 개인화, 맞춤형 서비스의 수요가 늘어나면서 추천 서비스가 주목을 받고 있다. 세션 기반(Session based) 추천 시스템은 사용자의 아이템 선호에 따른 순서 정보를 고려한 학습 추천 모델로, 다양한 산업 분야에서 사용되고 있다. 세션 기반 추천 시스템 중 SASRec(Self-Attentive Sequential Recommendation) 모델은 MC/CNN/RNN 기반의 기존 여러 순차 모델들에 비하여 효율적인 성능을 보인다. 본 연구에서는 SASRec 모델의 하이퍼파라미터 중 배치 사이즈(Batch Size), 학습률 (Learning Rate), 히든 유닛(Hidden Unit)을 조정하여 실험함으로써 하이퍼파라미터에 의한 성능 변화를 분석하였다.

불균형 데이터세트 학습에서 정확도 균일화를 위한 학습 방법에 관한 연구 (A Study of a Method for Maintaining Accuracy Uniformity When Using Long-tailed Dataset)

  • 박근표;박흠우;김종국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.585-587
    • /
    • 2023
  • Long-tailed datasets have an imbalanced distribution because they consist of a different number of data samples for each class. However, there are problems of the performance degradation in tail-classes and class-accuracy imbalance for all classes. To address these problems, this paper suggests a learning method for training of long-tailed dataset. The proposed method uses and combines two methods; one is a resampling method to generate a uniform mini-batch to prevent the performance degradation in tail-classes, and the other is a reweighting method to address the accuracy imbalance problem. The purpose of our proposed method is to train the learning models to have uniform accuracy for each class in a long-tailed dataset.

동기식 분산 딥러닝 환경에서 배치 사이즈 변화에 따른 모델 학습 성능 분석 (A Performance Analysis of Model Training Due to Different Batch Sizes in Synchronous Distributed Deep Learning Environments)

  • 김예랑;김형준;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.79-80
    • /
    • 2023
  • 동기식 분산 딥러닝 기법은 그래디언트 계산 작업을 다수의 워커가 나누어 병렬 처리함으로써 모델 학습 과정을 효율적으로 단축시킨다. 배치 사이즈는 이터레이션 단위로 처리하는 데이터 개수를 의미하며, 학습 속도 및 학습 모델의 품질에 영향을 미치는 중요한 요소이다. 멀티 GPU 환경에서 작동하는 분산 학습의 경우, 가용 GPU 메모리 용량이 커짐에 따라 선택 가능한 배치 사이즈의 상한이 증가한다. 하지만 배치 사이즈가 학습 속도 및 학습 모델 품질에 미치는 영향은 GPU 활용률, 총 에포크 수, 모델 파라미터 개수 등 다양한 변수에 영향을 받으므로 최적값을 찾기 쉽지 않다. 본 연구는 동기식 분산 딥러닝 환경에서 실험을 통해 최적의 배치 사이즈 선택에 영향을 미치는 주요 요인을 분석한다.

대규모 클러스터 시스템에서 배치작업 스케줄러를 활용한 성능 분석 데이터 수집 방법 연구 (A Study on Performance Analysis Data Collection Method Using Batch-job Scheduler onLarge-Scale Cluster System)

  • 이재국;권민우;안도식;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.37-39
    • /
    • 2023
  • 사용자 응용 프로그램의 특징을 분석하고 효율적인 시스템 운영을 통하여 사용자 프로그램 최적화를 지원하기 위하여 소프트웨어 프로파일링을 수행한다. 특히 국가 슈퍼컴퓨터인 누리온과 같이 8,400대가 넘는 계산노드로 구성된 클러스터 시스템에서 응용 프로그램의 프로파일링 데이터를 사용자의 개입없이 수집하고 데이터를 분석하는 것에는 한계가 있다. 본 연구에서는 배치작업 스케줄러를 활용하여 사용자의 개입 없이 응용 프로그램의 프로파일링 데이터를 수집하기 위한 방법을 제안한다. 그리고 제안한 방법을 누리온에서 구현하고 사용자 응용 프로그램이 실행될 때 프로파일링 데이터가 수집되는 것을 확인한다.

FRRmalloc:일회성 할당 및 리매핑 기반의 효율적인 Use-After-Free 방지 (FRRmalloc : Efficient Use-After-Free prevention based on One-time-allocation and batch remapping)

  • 김정훈;조영필
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.386-388
    • /
    • 2024
  • UAF(Use-After-Free)는 heap 영역에서 메모리 오염을 발생시킬 수 있는 취약점이다. UAF를 방지하기 위해 다양한 방법으로 관련 연구가 활발히 이루어지고 있지만, 아직까지 여러 오버헤드 측면에서 모두 좋은 성능을 발휘한 결과는 나오지 않고 있다. 할당자 수준에서의 수정을 통하여, UAF 취약점 방어를 보장하는 동시에 높은 성능과 낮은 오버헤드를 발생시킬 수 있는 방법을 제시한다. 본 논문에서는 UAF 취약점 및 관련 연구를 소개하고, 이를 기반으로 UAF 취약점에 대처할 수 있는 방법을 제시한다.

Microbubble Flotation에 의한 고품위(高品位) 석탄생산(石炭生産) 기술(技術) 개발(開發) (Development of Microbubble Flotation Technique for the Production of High Grade Coal)

  • 한오형;박신웅;김병곤
    • 자원리싸이클링
    • /
    • 제21권4호
    • /
    • pp.44-52
    • /
    • 2012
  • 본 연구에서는 고정탄소 20.68%의 석탄으로부터 고품위 석탄 생산의 가능성을 확인하고자 한다. 또한, 광물학적, 물리, 화학적인 방법과 단체분리도의 특성을 파악하여 청정 석탄 기술의 처리과정에서 회분의 함량을 감소하는 데 목적이 있다. 본 연구에서 일반부선과 미립자 처리에 적합한 microbubble column 부선을 적용하여 기포제, 포수제, 억제제의 종류와 첨가량의 변화와 분쇄시간, 공기주입량, 급광량에 따른 영향을 확인하였다. 먼저 광액농도 20%, 포수제 DMU 101 + DDA(100mL/ton), 기포제 pine oil(200mL/ton), 억제제 sodium silicate(1 kg/ton)의 실험조건으로 일반부선을 실시한 결과, 회분제거율 81.55%, 회수율 70.23%를 얻을 수 있었고, 광액농도 5%, 분쇄시간 5분, collector DMU 101 + DDA(100 mL/ton), 기포제 AF65(5.4 L/ton), 억제제 AF65 (5.4 L/ton), 세척수(360 mL/min.)와 공기주입량(1,197 mL/min.)의 조건으로 microbubble column 부선을 실시한 결과, 회분제거율 83.85%, 회수율 70.42%를 얻을 수 있었다.