• 제목/요약/키워드: Hadoop system

검색결과 237건 처리시간 0.02초

클라우드 컴퓨팅에서 Hadoop 애플리케이션 특성에 따른 성능 분석 (A Performance Analysis Based on Hadoop Application's Characteristics in Cloud Computing)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.49-56
    • /
    • 2010
  • 본 논문에서는 클라우드 컴퓨팅을 위해 Hadoop 기반의 클러스터를 구축하고, RandomTextWriter, WordCount, PI 애플리케이션을 수행함으로써 애플리케이션 특성에 따른 클러스터의 성능을 평가한다. RandomTextWriter는 주어진 용량만큼 임의의 단어를 생성하여 HDFS에 저장하는 애플리케이션이고, WordCount는 입력 파일을 읽어서 블록 단위로 단어 빈도수를 계산하는 애플리케이션이다. 그리고 PI는 몬테카를로법을 사용하여 PI 값을 유도하는 애플리케이션이다. 이러한 애플리케이션을 실행시키면서 데이터 블록 크기와 데이터 복제본 수 증가에 따른 애플리케이션의 수행시간을 측정한다. 시뮬레이션을 통하여 RandomTextWriter 애플리케이션은 데이터 복제본 수 증가에 비례하여 수행시간이 증가함을 알 수 있었다. 반면에 WordCount와 PI 애플리케이션은 데이터 복제본 수에 큰 영향을 받지 않았다. 또한 WordCount 애플리케이션은 블록 크기가 64~256MB 일 때 최적의 수행시간을 얻을 수있었다. 따라서 이러한 애플리케이션의 특성을 고려한 스케줄링 정책을 개발한다면 애플리케이션의 실행시간을 단축하여 클라우드 컴퓨팅 시스템의 성능을 향상시킬 수 있음을 보인다.

Hadoop 기반 분산 컴퓨팅 환경에서 네트워크 I/O의 성능개선을 위한 TIPC의 적용과 분석 (Applying TIPC Protocol for Increasing Network Performance in Hadoop-based Distributed Computing Environment)

  • 유대현;정상화;김태훈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권5호
    • /
    • pp.351-359
    • /
    • 2009
  • 최근 인터넷 서비스 기반의 데이터는 대용량화되고 있으며 대용량 데이터를 효과적으로 처리할 수 있는 구글 플랫폼, Apache Hadoop과 같은 플랫폼 기술이 각광받고 있다. 이러한 플랫폼에서는 분산 프로그래밍을 위한 기법으로 MapReduce가 수행되며, 이 과정에서 각 태스크의 결과를 전달하기 위한 네트워크 I/O의 부하 문제가 발생한다. 본 논문에서는 구글 플랫폼, Hadoop과 같은 대규모 PC 클러스터상의 분산 컴퓨팅 환경에서 네트워킹 부하를 경감하고 성능을 향상시키는 방안으로 TIPC(Transparent Inter-Process Communication)의 적용을 제안한다. TIPC는 경량화된 연결설정 및 스택 크기, 계층적 주소체계로 인해 TCP보다 가볍고 CPU 부하가 적은 장점을 가지고 있다. 본 논문에서는 Hadoop 기반 분산 컴퓨팅 환경의 특징을 분석하여 그와 유사한 실험환경을 모델화하고 다양한 프로토콜의 비교실험을 수행하였다. 실험결과 평균 전송률에서 CUBIC-TCP, SCTP와 비교해 TIPC의 성능이 가장 우수하였으며, TIPC는 CPU 점유율 측면에서 TCP와 비교해 최대 15%의 낮은 CPU 점유율을 보였다.

효과적인 웹 사용자의 패턴 분석을 위한 하둡 시스템의 웹 로그 분석 방안 (A Method for Analyzing Web Log of the Hadoop System for Analyzing a Effective Pattern of Web Users)

  • 이병주;권정숙;고기철;최용락
    • 한국IT서비스학회지
    • /
    • 제13권4호
    • /
    • pp.231-243
    • /
    • 2014
  • Of the various data that corporations can approach, web log data are important data that correspond to data analysis to implement customer relations management strategies. As the volume of approachable data has increased exponentially due to the Internet and popularization of smart phone, web log data have also increased a lot. As a result, it has become difficult to expand storage to process large amounts of web logs data flexibly and extremely hard to implement a system capable of categorizing, analyzing, and processing web log data accumulated over a long period of time. This study thus set out to apply Hadoop, a distributed processing system that had recently come into the spotlight for its capacity of processing large volumes of data, and propose an efficient analysis plan for large amounts of web log. The study checked the forms of web log by the effective web log collection methods and the web log levels by using Hadoop and proposed analysis techniques and Hadoop organization designs accordingly. The present study resolved the difficulty with processing large amounts of web log data and proposed the activity patterns of users through web log analysis, thus demonstrating its advantages as a new means of marketing.

하둡 기반 대규모 작업 배치 및 처리 기술 설계 (Design of a Large-scale Task Dispatching & Processing System based on Hadoop)

  • 김직수;구엔 카오;김서영;황순욱
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.613-620
    • /
    • 2016
  • 본 논문에서는 대규모의 작업을 고성능으로 처리하기 위한 Many-Task Computing(MTC) 기술을 기존의 빅데이터 처리 플랫폼인 Hadoop에 적용하기 위한 MOHA(Many-Task Computing on Hadoop) 프레임워크에 대해 기술한다. 세부적으로는 MOHA의 기본 개념과 개발 동기, 분산 작업 큐에 기반한 PoC(Proof-of-Concept) 수행 결과를 제시하고 향후 연구 방향에 대해서 논의하고자 한다. MTC 응용은 각각의 태스크들이 요구하는 I/O 처리량은 상대적으로 많지 않지만, 동시에 대량의 태스크들을 고성능으로 처리해야하고 이들이 파일을 통해서 통신한다는 특징을 가지고 있다. 따라서 기존의 상대적으로 큰 데이터 블록 사이즈에 기반한 Hadoop 응용과는 또 다른 패턴의 데이터 집약형 워크로드라고 할 수 있다. 이러한 MTC 기술과 빅데이터 기술의 융합을 통해 멀티 응용 플랫폼으로 진화하고 있는 Hadoop 생태계에 신규 프레임워크로서 대규모 계산과학 응용을 실행할 수 있는 MOHA를 추가하여 기여할 수 있을 것이다.

하둡기반 빅데이터 시스템을 이용한 스마트그리드 전력데이터 분석 (Analyzing Smart Grid Energy Data using Hadoop Based Big Data System)

  • 조영탁;이원진;이인규;온병원;최중인
    • 전기학회논문지P
    • /
    • 제64권2호
    • /
    • pp.85-91
    • /
    • 2015
  • With the increasing popularity of Smart Grid infrastructure, it is much easier to collect energy usage data using AMI (Advanced Measuring Instrument) from residential housing, buildings and factories. Several researches have been done to improve an energy efficiency by analyzing the collected energy usage data. However, it is not easy to store and analyze the energy data using a traditional relational database management system since the data size grows exponentially with an increasing popularity of Smart grid infrastructure. In this paper, we are proposing a Hadoop based Big data system to store and analyze energy usage data. Based on our limited experiments, Hadoop based energy data analysis is three times faster than that of a relational database management system based approach with the current system.

Lambda 구조를 적용한 IoT 센서 데이터 수집 환경 설계 (Design on the IoT Sensor Data Collection Envionment using Lambda Architecture)

  • 황윤영;김수현;신용태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.547-548
    • /
    • 2020
  • 데이터의 양은 기술의 발전과 함께 크게 증가하였다. Hadoop은 빅데이터 분야에서 사용되는 대표적인 빅데이터 처리 플랫폼으로 IoT 분야에서도 사용된다. HDFS(Haddop Distributed File System)는 Hadoop의 코어 프로젝트로 블록 기반의 대용량 데이터 저장소다. 기존의 Hadoop 기반 IoT 센서 데이터 수집 환경은 HDFS를 사용한다. 그러나 HDFS의 Small File로 인한 네임노드의 과부하 문제와 한 번 Import된 데이터의 Update와 Delete를 지원하지 않는 Hadoop의 특징으로 인해 성능과 활용이 제한적이다. 본 논문에서는 기존 Hadoop 기반 IoT 센서 데이터 수집 환경의 단점을 극복하기 위해 Lambda 구조를 적용한 IoT 센서 데이터 수집 환경을 설계한다.

  • PDF

A Hadoop-based Multimedia Transcoding System for Processing Social Media in the PaaS Platform of SMCCSE

  • Kim, Myoungjin;Han, Seungho;Cui, Yun;Lee, Hanku;Jeong, Changsung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권11호
    • /
    • pp.2827-2848
    • /
    • 2012
  • Previously, we described a social media cloud computing service environment (SMCCSE). This SMCCSE supports the development of social networking services (SNSs) that include audio, image, and video formats. A social media cloud computing PaaS platform, a core component in a SMCCSE, processes large amounts of social media in a parallel and distributed manner for supporting a reliable SNS. Here, we propose a Hadoop-based multimedia system for image and video transcoding processing, necessary functions of our PaaS platform. Our system consists of two modules, including an image transcoding module and a video transcoding module. We also design and implement the system by using a MapReduce framework running on a Hadoop Distributed File System (HDFS) and the media processing libraries Xuggler and JAI. In this way, our system exponentially reduces the encoding time for transcoding large amounts of image and video files into specific formats depending on user-requested options (such as resolution, bit rate, and frame rate). In order to evaluate system performance, we measure the total image and video transcoding time for image and video data sets, respectively, under various experimental conditions. In addition, we compare the video transcoding performance of our cloud-based approach with that of the traditional frame-level parallel processing-based approach. Based on experiments performed on a 28-node cluster, the proposed Hadoop-based multimedia transcoding system delivers excellent speed and quality.

하둡 및 Spark 기반 공간 통계 핫스팟 분석의 분산처리 방안 연구 (Distributed Processing Method of Hotspot Spatial Analysis Based on Hadoop and Spark)

  • 김창수;이주섭;황규문;성효진
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.99-105
    • /
    • 2018
  • 공간통계 분석중 하나인 핫스팟 분석은 "인접해 있는 것은 멀리 있는 것 보다 더 연관성이 있다"는 법칙에 따라 공간속성이나 사건의 공간 패턴을 쉽게 파악할 수 있는 기법 중 하나 이지만, 공간의 인접성이 고려되어야 하므로 분산 처리하기 용이하지 않다. 본 논문에서는 핫스팟 분석의 분산처리 방안을 기술하고 성능을 하둡 및 인메모리 기반인 Spark으로 평가한 결과 단일 시스템 대비 하둡기반 처리는 625.89%, Spark기반 처리는 870.14%의 성능향상을 확인하였으며, 하둡 기반과 Spark기반의 비교에서는 대용량 데이터 셋을 처리 할수록 Spark기반의 성능향상율이 높아짐을 확인하였다.

하둡을 이용한 번호판 인식 시스템 (A Licence Plate Recognition System using Hadoop)

  • 박진우;박호현
    • 전기전자학회논문지
    • /
    • 제21권2호
    • /
    • pp.142-145
    • /
    • 2017
  • 현재 활용되는 영상 데이터가 고화질 고화소 추세이며, 정보통신기술의 발달로 인해 이미지 데이터의 사이즈와 양이 기하급수적으로 증가하고 있다. 이러한 영상데이터를 효율적으로 처리한다면 다양한 컨텐츠로 활용할 수 있지만 기존의 단일컴퓨터로 처리하기에는 늘어나는 데이터를 처리하기에는 한계가 있다. 본 논문은 분산 처리 프레임워크인 Hadoop을 이용하여 번호판 인식 시스템을 제안한다. SequenceFile 포맷을 이용하여 매퍼당 여러 개의 이미지 데이터를 가지고 있는 데이터 블록을 인풋으로 받아 번호판 인식을 수행한다. 실험결과 하둡의 데이터 노드 1개와 비교하여 데이터 노드 16개에서 최대 14.7배의 속도향상을 보였으며, 데이터 셋의 크기를 10배 증가하여도 데이터 노드가 점진적으로 늘어남에 따라 번호판 인식 속도의 강인함을 확인하였다.

이미지 빅데이터를 고려한 하둡 플랫폼 환경에서 GPU 기반의 얼굴 검출 시스템 (A GPU-enabled Face Detection System in the Hadoop Platform Considering Big Data for Images)

  • 배유석;박종열
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.20-25
    • /
    • 2016
  • 디지털 빅데이터 시대가 도래함에 따라 다양한 분야에서 하둡 플랫폼이 널리 사용되고 있지만, 하둡 맵리듀스 프레임워크는 대량의 작은 파일들을 처리하는데 있어서 네임노드의 메인 메모리와 맵 태스크 수가 증가하는 문제점을 안고 있다. 또한, 맵리듀스 프레임워크에서 하드웨어 기반 데이터 병렬성을 지원하는 GPU를 활용하기 위해서는 C++ 언어 기반의 태스크를 맵리듀스 프레임워크에서 수행하기 위한 방식이 필요하다. 따라서, 본 논문에서는 이미지 빅데이터를 처리하기 위해 하둡 플랫폼 환경에서 이미지 시퀀스 파일을 생성하고 하둡 파이프를 이용하여 GPU 기반의 얼굴 검출 태스크를 맵리듀스 프레임워크에서 처리하는 얼굴 검출 시스템을 제시하고 단일 CPU 프로세스 대비 약 6.8배의 성능 향상을 보여준다.