• Title/Summary/Keyword: 하둡 시스템

Search Result 169, Processing Time 0.032 seconds

Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem (러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석)

  • Kwak, Jae-Hyuck;Kim, Sangwan;Huh, Taesang;Hwang, Soonwook
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.8
    • /
    • pp.561-566
    • /
    • 2015
  • Hadoop is becoming widely adopted in scientific and commercial areas as an open-source distributed data processing framework. Recently, for real-time processing and analysis of data, an attempt to apply high-performance computing technologies to Hadoop is being made. In this paper, we have expanded the Hadoop Filesystem library to support Lustre, which is a popular high-performance parallel distributed filesystem, and implemented the Hadoop MapReduce execution environment over the Lustre filesystem. We analysed Hadoop MapReduce over Lustre by using Hadoop standard benchmark tools. We found that Hadoop MapReduce over Lustre execution has a performance 2-13 times better than a typical Hadoop MapReduce execution.

Design for Haddop-based Platform to Improve Io T-based Big Data Processing Efficiency (IoT 기반 빅데이터 효율성 향상을 위한 하둡기반 플랫폼 설계)

  • Jang, Kyungsung;Bae, Sang Hyun
    • Journal of Integrative Natural Science
    • /
    • v.13 no.3
    • /
    • pp.114-119
    • /
    • 2020
  • IoT 및 사물인터넷 기반 빅데이터 시스템을 구축하는 경우 발생하는 빈번한 전송에 따른 데이터 오류율과 자원의 비효율적 이용율을 극복하기 위하고 오픈소스기반 하둡시스템의 문제점을 극복하기 위한 본 연구에서는 순수 하둡을 기반으로 적용된 결과를 분석하고 하둡 2.x대 버전을 기준으로 빅데이터 시스템의 용량을 산정한 가이드를 제시하고 용량 산정의 기준을 에코 소프트웨어 적용 플랫폼을 제안한다.

Performance Analysis of Distributed Hadoop Systems (분산 하둡 시스템의 성능 비교 분석)

  • Bae, Byoung-Jin;Kim, Young-Joo;Kim, Young-Kuk
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.05a
    • /
    • pp.479-482
    • /
    • 2014
  • Nowadays open-source hadoop systems have been using widely to efficiently manage a fast-growing big data. Hadoop systems consist of distributed file processing system called HDFS (Hadoop Distributed File System) and distributed parallel processing system called MapReduce. The MapReduce reads and processes big data from HDFS and then processed results are written in HDFS again by the MapReduce. Such a processing method has different system structure respectively according to hadoop version. Therefore, this paper shows analysis results for performance of hadoop systems. For this, we devise a way which monitors hadoop systems and measure occurrence frequency of processes, threads, and variables generated in hadoop system itself using the devised way. So, by using the measured results as analysis indicator, we help the indicator predict inner performance of hadoop systems.

  • PDF

Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve (타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜)

  • Jeong, Yoon-Su;Kim, Yong-Tae;Park, Gil-Cheol
    • Journal of Digital Convergence
    • /
    • v.12 no.10
    • /
    • pp.253-258
    • /
    • 2014
  • Recently, the development of cloud computing technology is developed as soon as smartphones is increases, and increased that users want to receive big data service. Hadoop framework of the big data service is provided to hadoop file system and hadoop mapreduce supported by data-intensive distributed applications. But, smpartphone service using hadoop system is a very vulnerable state to data authentication. In this paper, we propose a initial authentication protocol of hadoop system assisted by smartphone service. Proposed protocol is combine symmetric key cryptography techniques with ECC algorithm in order to support the secure multiple data processing systems. In particular, the proposed protocol to access the system by the user Hadoop when processing data, the initial authentication key and the symmetric key instead of the elliptic curve by using the public key-based security is improved.

A Personalized Movie Recommender Systems using Hadoop (하둡을 이용한 개인화 영화 추천 시스템)

  • Kim, Se-jun;Park, Doo-soon;Hong, Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1135-1136
    • /
    • 2013
  • 인터넷의 발달함에 따라 데이터가 기존에 비해 기하급수적으로 늘어나게 되는 이른바 빅데이터 시대를 맞이하게 되었다. 이러한 빅데이터는 기존의 시스템으로 처리하기가 쉽지 않아 이를 처리하기 위해 하둡이 개발되었다. 하둡은 분산파일 시스템으로 기존의 시스템에 비해 빅데이터를 처리하는데 적합하며 이를 이용한 다양한 오픈 소스들이 등장하게 된다. 그중 기계학습 알고리즘을 구현한 오픈소스 Mahout은 추천 시스템을 구현하는데 적합하다. 이를 이용하여 기존에 구현한 개인화 영화 추천 시스템을 하둡 시스템으로 구현하고 기존의 XLMiner로 구현한 시스템과 결과를 비교해 본다.

Design and Implementation of RDBMS-based Management of Hadoop Metadata (RDBMS 기반 하둡 메타데이터 관리의 설계 및 구현)

  • Son, Siwoon;Yang, Seokwoo;Gil, Myeong-Seon;Moon, Yang-Sae;Nguyen, Minh Chau;Won, Hee-Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1193-1195
    • /
    • 2015
  • 최근 빅데이터 문제를 해결하기 위해 하둡의 사용이 급증하였다. 하둡은 다수의 노드에 데이터를 분산 저장 및 처리하며, 이를 위해 모든 메타데이터를 네임노드에서 관리한다. 기존 하둡은 모든 메타데이터를 메모리 상에서 관리하며, 변경 이력을 로컬 파일 시스템에서 별도의 파일로 관리한다. 이 방법에서는 데이터의 증가 및 하둡 에코시스템의 확장 등의 이유로 관리되어야 할 메타데이터가 크게 증가하며, 이는 곧 네임노드의 메모리 부하를 높이는 문제가 있다. 본 논문은 이러한 인메모리 기반의 하둡 메타데이터 관리 구조를 RDBMS 기반으로 수정하도록 설계 및 구현한다. 그리고 하둡의 모든 명령어에 대한 테스트를 작성하여 본 연구의 적정성을 검토하였다. 본 논문은 네임노드의 부하를 줄임으로써 하둡의 안정성을 높이는 좋은 연구 결과라 사료된다.

A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos (Kerberos 기반 하둡 분산 파일 시스템의 안전성 향상방안)

  • Park, So Hyeon;Jeong, Ik Rae
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.23 no.5
    • /
    • pp.803-813
    • /
    • 2013
  • As the developments of smart devices and social network services, the amount of data has been exploding. The world is facing Big data era. For these reasons, the Big data processing technology which is a new technology that can handle such data has attracted much attention. One of the most representative technologies is Hadoop. Hadoop Distributed File System(HDFS) designed to run on commercial Linux server is an open source framework and can store many terabytes of data. The initial version of Hadoop did not consider security because it only focused on efficient Big data processing. As the number of users rapidly increases, a lot of sensitive data including personal information were stored on HDFS. So Hadoop announced a new version that introduces Kerberos and token system in 2009. However, this system is vulnerable to the replay attack, impersonation attack and other attacks. In this paper, we analyze these vulnerabilities of HDFS security and propose a new protocol which complements these vulnerabilities and maintains the performance of Hadoop.

Hadoop System Design for Big data Processing of RFID Distribution (RFID/NFC 물류의 빅 데이터 처리를 위한 하둡 시스템의 설계)

  • Kim, Nam-Ho;Noh, Jin-Heon;Jeong, Hee-Ja
    • Smart Media Journal
    • /
    • v.2 no.3
    • /
    • pp.47-53
    • /
    • 2013
  • Recently convergence of IT in logistics system as a typical application RFID/NFC technology is being used, such as, according to the distribution of the flow is generated by a lot of big data. The Hadoop distributed system to collect data items produced by the parallel processing capabilities of logistics information and logistics information for the record management can create. Hadoop system to support the design and development of prototypes were approaching the possibility of its utilization.

  • PDF

A Study on the Design of Ambari Service for Lustre Parallel File System Auto Provisioning (Lustre 병렬파일시스템 오토 프로비저닝을 위한 Ambari 서비스 설계에 관한 연구)

  • Kwak, Jae-Hyuck;Kim, Sangwan;Byun, Eunkyu;Nam, Dukyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.45-47
    • /
    • 2017
  • 하둡은 대표적인 빅데이터 처리 프레임워크로 널리 사용되고 있지만 하둡 어플리케이션은 고성능컴퓨팅 환경에서 하둡 분산파일시스템이 아닌 러스터 병렬 파일시스템 위에서도 수행될 수 있다. 그러나 이를 위해서 추가적으로 러스터 병렬파일시스템을 구축하고 관리하는 것은 시간 소모적인 업무가 될 수 있다. 본 연구는 러스터 병렬파일시스템의 오토 프로비저닝을 위한 암바리 서비스의 설계 방안에 대해서 제안한다. 암바리는 하둡 클러스터의 프로비저닝, 관리, 모니터링을 위한 운영 관리 프레임워크이며 운영자의 필요에 따라서 확장할 수 있는 서비스 프레임워크를 제공한다. 본 연구에서는 암바리를 통해서 러스터 병렬파일시스템을 오토 프로비저닝하고 관리하기 위한 확장 서비스를 설계하였으며 서비스를 위한 컴포넌트와 각 컴포넌트별 중요한 기능 사항에 대해서 논하였다.

빅데이터 하둡 플랫폼의 활용

  • Lee, Hyeon-Jong
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.43-47
    • /
    • 2012
  • 인터넷의 활성화 및 모바일 서비스의 등장으로 빅데이터 시대를 맞이하게 되었다. 이전에는 저장 및 처리할 수 없었던 영역. 이제는 새로운 기술의 등장과 분석을 통한 가치 창출의 가능성으로 빅데이터는 IT 업계의 최대 화두가 되어 가고 있다. 이러한 빅데이터를 바라보는 시각은 크게 기술적 관점과 분석적 관점으로 나뉘고 있다. 특히 기술적 관점에서 바라보는 빅데이터는 하둡을 표준으로 하는 오픈소스 분석 플랫폼의 대두가 고무적이다. 누구나가 대용량의 확장 가능한 시스템을 운영할 수 있는 기회가 온 것이다. 본 고에서는 빅데이터의 그 태생적 특징을 살펴보고, 비교적 저렴한 비용의 플랫폼 환경 구축을 위해 오픈소스 하둡이 널리 활용되고 있는 이유에 대해 알아본다. 또한 하둡의 용도와 어떠한 종류의 데이터 분석을 위해 사용되어지고 있는지, 그리고 하둡의 구성 및 하둡 생태계를 이루고 있는 요소들이 무엇인지 살펴본다. 끝으로 빅데이터를 활용하기 위한 6단계 절차와 이에 발맞춰 하둡 플랫폼을 어떻게 효율적으로 활용할 지에 대해 그 방법을 모색해 보고자 한다.