• 제목/요약/키워드: 하둡 프레임워크

검색결과 65건 처리시간 0.04초

노드의 가용성을 고려한 하둡 태스크 할당 정책 (Task Assignment Policy for Hadoop Considering Availability of Nodes)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.103-105
    • /
    • 2017
  • 하둡 맵리듀스(MapReduce)는 사용자가 요청한 잡을 하둡 클러스터에서 효과적으로 병렬 분산 처리하기 위한 프레임워크이다. 맵리듀스의 태스크 스케쥴러는 사용자의 잡 태스크들을 여러 노드에 할당하기 위한 기법이다. 하지만, 기존의 스케쥴러는 노드의 가용 상태에 따라 규모가 동적으로 변화하는 하둡 클러스터를 고려하지 않음으로써 클러스터의 자원을 충분히 활용하지 못하는 문제가 있다. 본 논문에서는 노드의 가용성을 고려하여 잡 태스크를 효과적으로 할당함으로써 하둡 클러스터의 활용성을 높이는 태스크 할당 정책을 제시한다.

  • PDF

빅데이터 수집 처리를 위한 분산 하둡 풀스택 플랫폼의 설계 (Design of Distributed Hadoop Full Stack Platform for Big Data Collection and Processing)

  • 이명호
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.45-51
    • /
    • 2021
  • 급속한 비대면 환경과 모바일 우선 전략에 따라 해마다 많은 정형/비정형 데이터의 폭발적인 증가와 생성은 모든 분야에서 빅데이터를 활용한 새로운 의사 결정과 서비스를 요구하고 있다. 그러나 매년 급속히 증가하는 빅데이터를 활용하여 실무 환경에서 적용 가능한 표준 플랫폼으로 빅데이터를 수집하여 적재한 후, 정재한 빅데이터를 관계형 데이터베이스에 저장하고 처리하는 하둡 에코시스템 활용의 참조 사례들은 거의 없었다. 따라서 본 연구에서는 스프링 프레임워크 환경에서 3대의 가상 머신 서버를 통하여 하둡 2.0을 기반으로 쇼셜 네트워크 서비스에서 키워드로 검색한 비정형 데이터를 수집한 후, 수집된 비정형 데이터를 하둡 분산 파일 시스템과 HBase에 적재하고, 적재된 비정형 데이터를 기반으로 형태소 분석기를 이용하여 정형화된 빅데이터를 관계형 데이터베이스에 저장할 수 있게 설계하고 구현하였다. 향후에는 데이터 심화 분석을 위한 하이브나 머하웃을 이용하여 머신 러닝을 이용한 클러스터링과 분류 및 분석 작업 연구가 지속되어야 할 것이다.

러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석 (Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem)

  • 곽재혁;김상완;허태상;황순욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.561-566
    • /
    • 2015
  • 하둡은 오픈소스 기반의 분산 데이터 처리 프레임워크로서 과학 및 상용 분야에서 널리 사용되고 있는데 최근에 대규모 데이터의 실시간 처리 및 분석을 위해 고성능 컴퓨팅(HPC) 기술을 활용하여 하둡을 고성능화하기 위한 연구가 시도되고 있다. 본 논문에서는 하둡의 기본 파일시스템 구현인 하둡 분산파일시스템(HDFS)을 고성능 병렬 분산파일시스템인 러스터 파일시스템으로 대체하여 사용할 수 있도록 하둡 파일시스템 라이브러리를 확장하여 구현하였고 하둡이 제공하는 표준 벤치마크 도구를 사용하여 성능을 분석하였다. 실험 결과 러스터 파일시스템 기반으로 하둡 맵리듀스 응용을 수행하는 경우에 2-13배의 성능 향상이 있음을 확인할 수 있었다.

센서 네트워크에서 위치 측정을 위한 분산 지지 벡터 머신 (Distributed Support Vector Machines for Localization on a Sensor Newtork)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.944-946
    • /
    • 2014
  • 최근 기계학습 방법을 도입하여 센서 노드에 대한 위치를 파악하는 방법이 관심을 받고 있다. 많은 기계학습 알고리즘 중, 지지벡터머신은 프로그래밍 언어로 구현하기 간편하고, 병렬로 수행이 가능하다. 본 논문에서는 파이썬 프로그래밍 언어로 지지벡터머신을 구현하고, 5대의 라즈베리파이를 사용하여 실험적인 하둡 센서 네트워크와 5개의 노드를 가진 맵리듀스 하둡 소프트웨어 프레임워크를 구성하였다. 기존 지지벡터머신 알고리즘을 분산 처리가 가능하도록 변형하여 위치 측정을 수행하였고, 다양한 파라미터를 변경해가면서 센서 네트워크를 구성하여 효율성, 자원분배, 처리속도를 비교하였다.

  • PDF

하둡 기반 천문 응용 분야 대규모 데이터 분석 기법 연구 (A Study on Large-scale Data Analysis based on Hadoop for Astroinformatics)

  • 곽재혁;윤준원;정용환;함재균;박동인
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.13-16
    • /
    • 2011
  • 과학 응용 분야에서 생성되는 대규모의 데이터를 빠른 시간 내에 효율적으로 처리해야 할 필요성이 대두 되면서 클라우드 컴퓨팅이 주목받고 있다. 하둡(Hadoop)은 대규모 데이터 처리 분석을 위한 소프트웨어 프레임워크를 제공하는 아파치의 오픈소스 프로젝트로서 클라우드 컴퓨팅의 대표적인 기술로서 널리 사용되고 있다. 특히, 하둡은 높은 확장성과 성능을 제공하면서 결함 탐지와 자동 복구 기능이 우수하여 과학 기술 분야에서도 점차적으로 도입 및 활용되고 있다. 본 논문에서는 하둡을 이용하여 천문 응용 분야에서 생성되는 대규모 데이터를 분석하기 위한 방법을 연구하였다. 본 논문에서 관심을 가지는 천문 응용 데이터는 대략 천만개의 작은 크기의 관측 데이터를 처리해야 하지만, 하둡은 대규모 데이터 처리에 특화되어 있어서 많은 개수의 작은 크기를 가지는 관측데이터 처리에는 적합하지 않다. 본 논문에서는 천문 응용 데이터 처리를 위한 입출력 파일을 하둡에서 제공하는 특수화된 데이터 구조를 이용하여 압축하였고, 천문 응용 실행 코드가 하둡에서 실행이 가능하도록 맵리듀스 작업으로 랩핑하여 구현하였다.

하둡 보안 기술과 취약점 분석 (Hadoop Security Technologies and Vulnerability Analysis)

  • 김아용;하의륜;김한길;박만섭;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.681-683
    • /
    • 2013
  • 스마트폰이 보급되어 빅 데이터(Big Data) 시대를 맞이하였고, 페이스북(FaceBook)이나 트위터(Twitter)같은 SNS(Social Network Service)를 실생활에서 일상화되어 사용하고 있다. 여기서 발생하는 SNS의 비정형 데이터를 버리지 않고 분석 및 추출하고 활용하기 위해서 아파치 재단에서 개발된 하둡(Hadoop)을 활용하고 있다. 하둡은 대량의 자료를 처리할 수 있는 오픈 소스 프레임워크(Open Source Framework)이다. 하둡은 국내의 기업에서도 도입하고 있으며 현재 개발 및 상용하고 있다. 그러나 하둡은 기술 개발에 비해 보안 분야는 미흡하다는 지적을 받고 있다. 이에 본 논문에서는 하둡의 보안 기술과 취약점을 분석하고 보안을 향상시키는 방법을 제안한다.

  • PDF

Hadoop을 활용하여 3D 프린터용 대용량 데이터 처리 알고리즘 개발 (Development of high volumes of data processing algorithm for 3D printers in Hadoop systems)

  • 남기원;이규영;김건영;김주현;김성석;양순옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.691-693
    • /
    • 2017
  • 하둡 시스템은 대용량의 데이터를 처리할 수 있는 클러스터 기반 개방형 소프트웨어 프레임워크이다. 이는 하둡 분산 파일시스템(HDFS)과 MapReduce 모델을 활용하여 데이터의 병렬 처리를 지원한다. 본 연구에서는 3D 프린터를 위한 3D 모델 데이터를 G-code로 변환하는 알고리즘을 하둡을 활용하여 구현하였다. 4대의 컴퓨터에 하둡 시스템을 설치한 후 전처리-Map-Shuffling-Reduce의 과정을 거쳐 변환작업이 효율적으로 처리하였음을 보일 수 있었다.

하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법의 설계 및 구현 (Design and Implementation of HDFS data encryption scheme using ARIA algorithms on Hadoop)

  • 송영호;신영성;윤민;장미영;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.613-616
    • /
    • 2015
  • 최근 스마트폰 기기의 보급 및 소셜 서비스 산업의 고도화로 인해, 빅데이터가 등장하였다. 한편 빅데이터에서 효율적으로 정보를 분석하는 대표적인 플랫폼으로 하둡이 존재한다. 하둡은 클러스터 환경에 기반한 우수한 확장성, 장애 복구 기능 및 사용자가 기능을 정의할 수 있는 맵리듀스 프레임워크 등을 지원한다. 아울러 하둡은 개인정보나 위치 데이터 등의 민감한 정보를 보호하기 위해 Kerberos를 통한 사용자 인증 기법을 제공하고, HDFS 압축 코덱을 활용한 AES 코덱 기반 데이터 암호화를 지원하고 있다. 그러나 하둡 기반 소프트웨어를 사용하고 있는 국내 기관 및 기업은 국내 ARIA 데이터 암호화를 적용하지 못하고 있다. 이를 해결하기 위해 본 논문에서는 하둡을 기반으로 ARIA 암호화를 지원하는 HDFS 데이터 암호화 기법을 제안한다.

로우엔드 클러스터 센서 네트워크에서 위치 측정을 위한 지지 벡터 머신 (Constructing a Support Vector Machine for Localization on a Low-End Cluster Sensor Network)

  • 문상국
    • 한국정보통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.2885-2890
    • /
    • 2014
  • 최근 기계학습 방법을 도입하여 센서 노드에 대한 위치를 파악하는 방법이 관심을 받고 있다. 많은 기계학습 알고리즘 중, 지지벡터머신은 프로그래밍 언어로 구현하기 간편하고, 병렬로 수행이 가능하다. 라즈베리파이는 작고 기능이 많아 센서 노드로 사용 시 인터넷 프로토콜을 사용하는 하둡 네트워크 클러스터 구성이 가능하다. 본 논문에서는 파이썬 프로그래밍 언어로 지지벡터머신을 구현하고, 5대의 라즈베리파이를 사용하여 실험적인 하둡 센서 네트워크와 5개의 노드를 가진 맵리듀스 하둡 소프트웨어 프레임워크를 구성하였다. 실험에서 우리는 다양한 파라미터를 변경해가면서 센서 네트워크를 구성하여 효율성, 자원분배, 처리속도를 비교하였다. 라즈베리파이의 컴퓨팅 파워와 메모리 용량은 부족했지만, 센서 클러스터의 노드 멤버의 역할을 충분히 수행하였고, 지지벡터머신 기계학습을 사용하여 센서 노드의 위치측정을 성공적으로 수행하였다.

타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜 (Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.253-258
    • /
    • 2014
  • 최근 스마트폰 사용이 증가하면서 빅 데이터 서비스를 제공하는 클라우드 컴퓨팅 기술이 발달하고 있으며, 빅 데이터 서비스를 제공받으려는 사용자 또한 증가하고 있다. 빅 데이터 서비스 중 하둡 프레임워크는 데이터 집약적인 분산 어플리케이션을 지원하는 하둡 파일 시스템과 하둡 맵리듀스로 서비스를 제공하고 있으나, 하둡 시스템을 이용하는 스마트폰 서비스는 데이터 인증시 보안에 매우 취약한 상태이다. 본 논문에서는 스마트폰 서비스를 제공하는 하둡 시스템의 초기 과정의 인증 프로토콜을 제안한다. 제안 프로토콜은 하둡 시스템의 안전한 다중 데이터 처리를 지원하기 위해서 대칭키 암호 기술과 함께 ECC 기반의 알고리즘을 조합하였다. 특히, 제안 프로토콜은 사용자가 하둡 시스템에 접근하여 데이터를 처리할 때, 초기 인증키를 대칭키 대신 타원 곡선 기반의 공개키를 사용함으로써 안전성을 향상시켰다.