• 제목/요약/키워드: 하둡 시스템

검색결과 169건 처리시간 0.029초

러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석 (Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem)

  • 곽재혁;김상완;허태상;황순욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.561-566
    • /
    • 2015
  • 하둡은 오픈소스 기반의 분산 데이터 처리 프레임워크로서 과학 및 상용 분야에서 널리 사용되고 있는데 최근에 대규모 데이터의 실시간 처리 및 분석을 위해 고성능 컴퓨팅(HPC) 기술을 활용하여 하둡을 고성능화하기 위한 연구가 시도되고 있다. 본 논문에서는 하둡의 기본 파일시스템 구현인 하둡 분산파일시스템(HDFS)을 고성능 병렬 분산파일시스템인 러스터 파일시스템으로 대체하여 사용할 수 있도록 하둡 파일시스템 라이브러리를 확장하여 구현하였고 하둡이 제공하는 표준 벤치마크 도구를 사용하여 성능을 분석하였다. 실험 결과 러스터 파일시스템 기반으로 하둡 맵리듀스 응용을 수행하는 경우에 2-13배의 성능 향상이 있음을 확인할 수 있었다.

IoT 기반 빅데이터 효율성 향상을 위한 하둡기반 플랫폼 설계 (Design for Haddop-based Platform to Improve Io T-based Big Data Processing Efficiency)

  • 장경성;배상현
    • 통합자연과학논문집
    • /
    • 제13권3호
    • /
    • pp.114-119
    • /
    • 2020
  • IoT 및 사물인터넷 기반 빅데이터 시스템을 구축하는 경우 발생하는 빈번한 전송에 따른 데이터 오류율과 자원의 비효율적 이용율을 극복하기 위하고 오픈소스기반 하둡시스템의 문제점을 극복하기 위한 본 연구에서는 순수 하둡을 기반으로 적용된 결과를 분석하고 하둡 2.x대 버전을 기준으로 빅데이터 시스템의 용량을 산정한 가이드를 제시하고 용량 산정의 기준을 에코 소프트웨어 적용 플랫폼을 제안한다.

분산 하둡 시스템의 성능 비교 분석 (Performance Analysis of Distributed Hadoop Systems)

  • 배병진;김영주;김영국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.479-482
    • /
    • 2014
  • 오늘날 급증하는 빅데이터를 효율적으로 관리하기 위해 오픈소스인 하둡을 많이 사용한다. 하둡은 분산 파일 처리 시스템인 HDFS(Hadoop Distributed File System)와 분산 병렬 처리 시스템인 맵리듀스(MapReduce)로 구성되어 있다. 하둡의 맵리듀스 프레임워크에서는 빅데이터를 HDFS에서 읽어들이고 분석 처리된 결과를 다시 HDFS에 쓴다. 이러한 분산 병렬 처리 방식은 하둡 버전에 따라 다른 시스템 구조를 가진다. 따라서 본 논문에서는 하둡 버전에 따른 빅데이터 처리 시에 동작하는 하둡시스템들의 내부 성능을 비교 분석한다. 이를 위해서 하둡 시스템을 감시할 수 있는 방법을 고안하여 내부적으로 생성되는 프로세스 및 스레드들과 변수들의 발생빈도를 측정하여 분석 지표로 사용한다.

  • PDF

타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜 (Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.253-258
    • /
    • 2014
  • 최근 스마트폰 사용이 증가하면서 빅 데이터 서비스를 제공하는 클라우드 컴퓨팅 기술이 발달하고 있으며, 빅 데이터 서비스를 제공받으려는 사용자 또한 증가하고 있다. 빅 데이터 서비스 중 하둡 프레임워크는 데이터 집약적인 분산 어플리케이션을 지원하는 하둡 파일 시스템과 하둡 맵리듀스로 서비스를 제공하고 있으나, 하둡 시스템을 이용하는 스마트폰 서비스는 데이터 인증시 보안에 매우 취약한 상태이다. 본 논문에서는 스마트폰 서비스를 제공하는 하둡 시스템의 초기 과정의 인증 프로토콜을 제안한다. 제안 프로토콜은 하둡 시스템의 안전한 다중 데이터 처리를 지원하기 위해서 대칭키 암호 기술과 함께 ECC 기반의 알고리즘을 조합하였다. 특히, 제안 프로토콜은 사용자가 하둡 시스템에 접근하여 데이터를 처리할 때, 초기 인증키를 대칭키 대신 타원 곡선 기반의 공개키를 사용함으로써 안전성을 향상시켰다.

하둡을 이용한 개인화 영화 추천 시스템 (A Personalized Movie Recommender Systems using Hadoop)

  • 김세준;박두순;홍민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1135-1136
    • /
    • 2013
  • 인터넷의 발달함에 따라 데이터가 기존에 비해 기하급수적으로 늘어나게 되는 이른바 빅데이터 시대를 맞이하게 되었다. 이러한 빅데이터는 기존의 시스템으로 처리하기가 쉽지 않아 이를 처리하기 위해 하둡이 개발되었다. 하둡은 분산파일 시스템으로 기존의 시스템에 비해 빅데이터를 처리하는데 적합하며 이를 이용한 다양한 오픈 소스들이 등장하게 된다. 그중 기계학습 알고리즘을 구현한 오픈소스 Mahout은 추천 시스템을 구현하는데 적합하다. 이를 이용하여 기존에 구현한 개인화 영화 추천 시스템을 하둡 시스템으로 구현하고 기존의 XLMiner로 구현한 시스템과 결과를 비교해 본다.

RDBMS 기반 하둡 메타데이터 관리의 설계 및 구현 (Design and Implementation of RDBMS-based Management of Hadoop Metadata)

  • 손시운;양석우;길명선;문양세;민차우;원희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1193-1195
    • /
    • 2015
  • 최근 빅데이터 문제를 해결하기 위해 하둡의 사용이 급증하였다. 하둡은 다수의 노드에 데이터를 분산 저장 및 처리하며, 이를 위해 모든 메타데이터를 네임노드에서 관리한다. 기존 하둡은 모든 메타데이터를 메모리 상에서 관리하며, 변경 이력을 로컬 파일 시스템에서 별도의 파일로 관리한다. 이 방법에서는 데이터의 증가 및 하둡 에코시스템의 확장 등의 이유로 관리되어야 할 메타데이터가 크게 증가하며, 이는 곧 네임노드의 메모리 부하를 높이는 문제가 있다. 본 논문은 이러한 인메모리 기반의 하둡 메타데이터 관리 구조를 RDBMS 기반으로 수정하도록 설계 및 구현한다. 그리고 하둡의 모든 명령어에 대한 테스트를 작성하여 본 연구의 적정성을 검토하였다. 본 논문은 네임노드의 부하를 줄임으로써 하둡의 안정성을 높이는 좋은 연구 결과라 사료된다.

Kerberos 기반 하둡 분산 파일 시스템의 안전성 향상방안 (A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos)

  • 박소현;정익래
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.803-813
    • /
    • 2013
  • 최근 스마트 기기 및 소셜 네트워크 서비스의 발달로 인해 데이터가 폭증하며 세계는 이른바 빅데이터 시대를 맞고 있다. 이에 이러한 데이터를 처리할 수 있는 새로운 기술인 빅데이터 처리기술은 클라우드 컴퓨팅 기술과 함께 주목받고 있으며, 가장 대표적인 기술이 바로 하둡이다. 하둡 분산 파일 시스템은 상용 리눅스 서버에서 실행되도록 설계된 오픈소스 프레임워크로서 수백 테라바이트 크기의 파일을 저장할 수 있다. 초기 하둡은 빅데이터 처리에 초점을 맞추어 보안이 거의 도입되지 않은 상태였으나 사용자가 빠르게 늘어남에 따라 하둡 분산 파일 시스템에 개인정보를 포함한 민감한 데이터가 많이 저장되면서, 2009년 커버로스와 토큰 시스템을 도입한 새로운 버전을 발표하였다. 그러나 이 시스템은 재전송 공격, 가장 공격 등이 가능하다는 취약점을 가진다. 따라서 본 논문에서는 하둡 분산 파일 시스템 보안 취약점을 분석하고, 이러한 취약점을 보완하면서 하둡의 성능을 유지할 수 있는 새로운 프로토콜을 제안한다.

RFID/NFC 물류의 빅 데이터 처리를 위한 하둡 시스템의 설계 (Hadoop System Design for Big data Processing of RFID Distribution)

  • 김남호;노진헌;정희자
    • 스마트미디어저널
    • /
    • 제2권3호
    • /
    • pp.47-53
    • /
    • 2013
  • 최근 융합 IT의 대표적 응용분야로서 물류시스템에 RFID/NFC 등의 기술이 사용되고 있으며, 물류의 흐름에 따른 많은 빅 데이터(Big Data)가 생성되고 있다. 이러한 분산된 데이터를 수집하여 하둡 시스템의 병렬처리 기능으로 생산 아이템의 물류 정보와 물류의 이력관리를 위한 정보를 생성할 수 있다. 이를 지원하기 위한 하둡 시스템 설계 및 프로토타입을 개발하여 이의 활용가능성을 타진하였다.

  • PDF

Lustre 병렬파일시스템 오토 프로비저닝을 위한 Ambari 서비스 설계에 관한 연구 (A Study on the Design of Ambari Service for Lustre Parallel File System Auto Provisioning)

  • 곽재혁;김상완;변은규;남덕윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.45-47
    • /
    • 2017
  • 하둡은 대표적인 빅데이터 처리 프레임워크로 널리 사용되고 있지만 하둡 어플리케이션은 고성능컴퓨팅 환경에서 하둡 분산파일시스템이 아닌 러스터 병렬 파일시스템 위에서도 수행될 수 있다. 그러나 이를 위해서 추가적으로 러스터 병렬파일시스템을 구축하고 관리하는 것은 시간 소모적인 업무가 될 수 있다. 본 연구는 러스터 병렬파일시스템의 오토 프로비저닝을 위한 암바리 서비스의 설계 방안에 대해서 제안한다. 암바리는 하둡 클러스터의 프로비저닝, 관리, 모니터링을 위한 운영 관리 프레임워크이며 운영자의 필요에 따라서 확장할 수 있는 서비스 프레임워크를 제공한다. 본 연구에서는 암바리를 통해서 러스터 병렬파일시스템을 오토 프로비저닝하고 관리하기 위한 확장 서비스를 설계하였으며 서비스를 위한 컴포넌트와 각 컴포넌트별 중요한 기능 사항에 대해서 논하였다.

빅데이터 하둡 플랫폼의 활용

  • 이현종
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.43-47
    • /
    • 2012
  • 인터넷의 활성화 및 모바일 서비스의 등장으로 빅데이터 시대를 맞이하게 되었다. 이전에는 저장 및 처리할 수 없었던 영역. 이제는 새로운 기술의 등장과 분석을 통한 가치 창출의 가능성으로 빅데이터는 IT 업계의 최대 화두가 되어 가고 있다. 이러한 빅데이터를 바라보는 시각은 크게 기술적 관점과 분석적 관점으로 나뉘고 있다. 특히 기술적 관점에서 바라보는 빅데이터는 하둡을 표준으로 하는 오픈소스 분석 플랫폼의 대두가 고무적이다. 누구나가 대용량의 확장 가능한 시스템을 운영할 수 있는 기회가 온 것이다. 본 고에서는 빅데이터의 그 태생적 특징을 살펴보고, 비교적 저렴한 비용의 플랫폼 환경 구축을 위해 오픈소스 하둡이 널리 활용되고 있는 이유에 대해 알아본다. 또한 하둡의 용도와 어떠한 종류의 데이터 분석을 위해 사용되어지고 있는지, 그리고 하둡의 구성 및 하둡 생태계를 이루고 있는 요소들이 무엇인지 살펴본다. 끝으로 빅데이터를 활용하기 위한 6단계 절차와 이에 발맞춰 하둡 플랫폼을 어떻게 효율적으로 활용할 지에 대해 그 방법을 모색해 보고자 한다.