• 제목/요약/키워드: HADOOP

검색결과 392건 처리시간 0.025초

Hadoop 기반 분산 컴퓨팅 환경에서 네트워크 I/O의 성능개선을 위한 TIPC의 적용과 분석 (Applying TIPC Protocol for Increasing Network Performance in Hadoop-based Distributed Computing Environment)

  • 유대현;정상화;김태훈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권5호
    • /
    • pp.351-359
    • /
    • 2009
  • 최근 인터넷 서비스 기반의 데이터는 대용량화되고 있으며 대용량 데이터를 효과적으로 처리할 수 있는 구글 플랫폼, Apache Hadoop과 같은 플랫폼 기술이 각광받고 있다. 이러한 플랫폼에서는 분산 프로그래밍을 위한 기법으로 MapReduce가 수행되며, 이 과정에서 각 태스크의 결과를 전달하기 위한 네트워크 I/O의 부하 문제가 발생한다. 본 논문에서는 구글 플랫폼, Hadoop과 같은 대규모 PC 클러스터상의 분산 컴퓨팅 환경에서 네트워킹 부하를 경감하고 성능을 향상시키는 방안으로 TIPC(Transparent Inter-Process Communication)의 적용을 제안한다. TIPC는 경량화된 연결설정 및 스택 크기, 계층적 주소체계로 인해 TCP보다 가볍고 CPU 부하가 적은 장점을 가지고 있다. 본 논문에서는 Hadoop 기반 분산 컴퓨팅 환경의 특징을 분석하여 그와 유사한 실험환경을 모델화하고 다양한 프로토콜의 비교실험을 수행하였다. 실험결과 평균 전송률에서 CUBIC-TCP, SCTP와 비교해 TIPC의 성능이 가장 우수하였으며, TIPC는 CPU 점유율 측면에서 TCP와 비교해 최대 15%의 낮은 CPU 점유율을 보였다.

타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜 (Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.253-258
    • /
    • 2014
  • 최근 스마트폰 사용이 증가하면서 빅 데이터 서비스를 제공하는 클라우드 컴퓨팅 기술이 발달하고 있으며, 빅 데이터 서비스를 제공받으려는 사용자 또한 증가하고 있다. 빅 데이터 서비스 중 하둡 프레임워크는 데이터 집약적인 분산 어플리케이션을 지원하는 하둡 파일 시스템과 하둡 맵리듀스로 서비스를 제공하고 있으나, 하둡 시스템을 이용하는 스마트폰 서비스는 데이터 인증시 보안에 매우 취약한 상태이다. 본 논문에서는 스마트폰 서비스를 제공하는 하둡 시스템의 초기 과정의 인증 프로토콜을 제안한다. 제안 프로토콜은 하둡 시스템의 안전한 다중 데이터 처리를 지원하기 위해서 대칭키 암호 기술과 함께 ECC 기반의 알고리즘을 조합하였다. 특히, 제안 프로토콜은 사용자가 하둡 시스템에 접근하여 데이터를 처리할 때, 초기 인증키를 대칭키 대신 타원 곡선 기반의 공개키를 사용함으로써 안전성을 향상시켰다.

하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법의 설계 및 구현 (Design and Implementation of HDFS Data Encryption Scheme Using ARIA Algorithms on Hadoop)

  • 송영호;신영성;장재우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권2호
    • /
    • pp.33-40
    • /
    • 2016
  • 최근 소셜 네트워크 서비스(SNS)의 발전으로 빅데이터가 출현하였고, 이를 분석하기 위한 분산 병렬 플랫폼으로 하둡이 개발되었다. 하둡을 사용하는 기업은 개인적인 정보가 포함된 데이터를 분석하여 마케팅 등에 활용하고 있다. 이에 따라, 하둡에 저장된 센서티브(sensitive) 데이터의 유출을 방지하기 위한 데이터 암호화 연구가 수행되었다. 하지만 기존 데이터 암호화에 대한 연구는 국외 표준인 AES 암호화 알고리즘만을 지원하는 한계점이 존재한다. 한편 정부에서는 데이터 암호화 알고리즘으로 ARIA 알고리즘을 국내 표준으로 지정하였다. 본 논문에서는 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 첫째, 제안하는 암호화 기법은 하둡의 분산 컴퓨팅 환경에서 ARIA 암호화 및 복호화를 수행하는 HDFS 블록 분할 컴포넌트를 제공한다. 둘째, 제안하는 암호화 기법은 데이터의 마지막 블록이 128비트 단위의 데이터가 아닐 경우, 더미(dummy) 데이터를 추가하여 암호화 및 복호화를 수행하는 가변길이 데이터 처리 컴포넌트를 제공한다. 마지막으로 성능 평가를 통해, 제안하는 ARIA 기반 암호화 기법이 텍스트 문자열 처리 응용 및 과학 데이터 분석 응용에서 효과적으로 사용될 수 있음을 보였다.

Hadoop 클러스터를 위한 모니터링 툴 (Monitoring Tool for Hadoop Cluster)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.17-18
    • /
    • 2010
  • 최근 이슈가 되고 있는 클라우드 컴퓨팅은 다수의 노드를 이용한 클러스터를 사용한다. 이러한 클러스터를 효율적으로 관리하기 위해 모니터링 툴을 사용하고 있다. 하지만, 기존의 모니터링 툴은 클러스터를 구성하는 노드의 가용성과 오버헤드, 데이터 수집/전송 방식에 중심을 둔 모니터링 툴이기 때문에 클라우드 클러스터의 세부 정보까지 모니터링 할 수 없다. 따라서 본 논문에서는 클라우드 컴퓨팅을 구축할 수 있는 플랫폼인 Hadoop을 위한 모니터링 툴을 제안한다.

  • PDF

노드의 가용성을 고려한 하둡 태스크 할당 정책 (Task Assignment Policy for Hadoop Considering Availability of Nodes)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.103-105
    • /
    • 2017
  • 하둡 맵리듀스(MapReduce)는 사용자가 요청한 잡을 하둡 클러스터에서 효과적으로 병렬 분산 처리하기 위한 프레임워크이다. 맵리듀스의 태스크 스케쥴러는 사용자의 잡 태스크들을 여러 노드에 할당하기 위한 기법이다. 하지만, 기존의 스케쥴러는 노드의 가용 상태에 따라 규모가 동적으로 변화하는 하둡 클러스터를 고려하지 않음으로써 클러스터의 자원을 충분히 활용하지 못하는 문제가 있다. 본 논문에서는 노드의 가용성을 고려하여 잡 태스크를 효과적으로 할당함으로써 하둡 클러스터의 활용성을 높이는 태스크 할당 정책을 제시한다.

  • PDF

SQL on Hadoop 기술 동향 및 보안 위협 (Security Threats and Review for SQL on Hadoop)

  • 윤한중;석상기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.691-693
    • /
    • 2015
  • SQL on Hadoop 기술은 하둡 분산 파일 시스템에 저장된 데이터를 대상으로 SQL을 이용하여 사용자의 질의를 처리하는 기술이다. 기존의 Hadoop 시스템이 맵리듀스의 한계와 기존 시스템의 호환성으로 인해 RDBMS와 병행사용이 불가피하다는 단점을 SQL을 이용해 극복하고자 하는 것이다. 본 논문에서는 SQL on Hadoop의 대표적 프레임워크인 Hive와 Impala의 특징과, 연구동향에 대해 살펴보고 예상되는 보안 위협에 대해 고찰한다.

Workflow Scheduling Using Heuristic Scheduling in Hadoop

  • Thingom, Chintureena;Kumar R, Ganesh;Yeon, Guydeuk
    • Journal of information and communication convergence engineering
    • /
    • 제16권4호
    • /
    • pp.264-270
    • /
    • 2018
  • In our research study, we aim at optimizing multiple load in cloud, effective resource allocation and lesser response time for the job assigned. Using Hadoop on datacenter is the best and most efficient analytical service for any corporates. To provide effective and reliable performance analytical computing interface to the client, various cloud service providers host Hadoop clusters. The previous works done by many scholars were aimed at execution of workflows on Hadoop platform which also minimizes the cost of virtual machines and other computing resources. Earlier stochastic hill climbing technique was applied for single parameter and now we are working to optimize multiple parameters in the cloud data centers with proposed heuristic hill climbing. As many users try to priorities their job simultaneously in the cluster, resource optimized workflow scheduling technique should be very reliable to complete the task assigned before the deadlines and also to optimize the usage of the resources in cloud.

Study on Data Processing of the IOT Sensor Network Based on a Hadoop Cloud Platform and a TWLGA Scheduling Algorithm

  • Li, Guoyu;Yang, Kang
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1035-1043
    • /
    • 2021
  • An Internet of Things (IOT) sensor network is an effective solution for monitoring environmental conditions. However, IOT sensor networks generate massive data such that the abilities of massive data storage, processing, and query become technical challenges. To solve the problem, a Hadoop cloud platform is proposed. Using the time and workload genetic algorithm (TWLGA), the data processing platform enables the work of one node to be shared with other nodes, which not only raises efficiency of one single node but also provides the compatibility support to reduce the possible risk of software and hardware. In this experiment, a Hadoop cluster platform with TWLGA scheduling algorithm is developed, and the performance of the platform is tested. The results show that the Hadoop cloud platform is suitable for big data processing requirements of IOT sensor networks.

Lambda 구조를 적용한 IoT 센서 데이터 수집 환경 설계 (Design on the IoT Sensor Data Collection Envionment using Lambda Architecture)

  • 황윤영;김수현;신용태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.547-548
    • /
    • 2020
  • 데이터의 양은 기술의 발전과 함께 크게 증가하였다. Hadoop은 빅데이터 분야에서 사용되는 대표적인 빅데이터 처리 플랫폼으로 IoT 분야에서도 사용된다. HDFS(Haddop Distributed File System)는 Hadoop의 코어 프로젝트로 블록 기반의 대용량 데이터 저장소다. 기존의 Hadoop 기반 IoT 센서 데이터 수집 환경은 HDFS를 사용한다. 그러나 HDFS의 Small File로 인한 네임노드의 과부하 문제와 한 번 Import된 데이터의 Update와 Delete를 지원하지 않는 Hadoop의 특징으로 인해 성능과 활용이 제한적이다. 본 논문에서는 기존 Hadoop 기반 IoT 센서 데이터 수집 환경의 단점을 극복하기 위해 Lambda 구조를 적용한 IoT 센서 데이터 수집 환경을 설계한다.

  • PDF

Apache Kudu와 Impala를 활용한 Lambda Arch tecture 설계 (Lambda Architecture Design using Apache Kudu and Impala)

  • 황윤영;이필원;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.60-62
    • /
    • 2020
  • 데이터의 양은 기술의 발전으로 발생하는 크게 증가하였고 다양한 빅데이터 처리 플랫폼이 등장하고 있다. 이 중 가장 널리 사용되고 있는 품랫폼이 Apache 소프트웨어 재단에서 개발한 Hadoop이며, Hadoop은 IoT 분야에도 사용된다. 그러나 기존에 Hadoop 기반 IoT 센서 데이터 수집 분석 환경은 Hadoop의 코어 프로젝트인 HDFS의 Small File로 인한 네임노드의 과부하 문제와 Import된 데이터의 Update나 Delete가 불가능하다는 문제가 있다. 본 논문에서는 Apache Kudu와 Impala를 활용해 Lambda Architecture를 설계한다. 제안하는 Architecture는 IoT 센서 데이터를 Cold-Data와 Hot-Data로 분류해 각 성격에 맞는 스토리지에 저장하고 Batch를 동해 생성된 Batch-View와 Apache Kudu와 Impala를 통해 생성된 Real-time View를 활용해 기존 Hadoop 기반 IoT 센서 데이터 수집 분석 환경의 문제를 해결하고 사용자가 분석된 데이터에 접근하는 시간을 단축한다.