• 제목/요약/키워드: 하둡 환경

검색결과 95건 처리시간 0.024초

Spark 기반 공간 분석에서 공간 분할의 성능 비교 (Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark)

  • 양평우;유기현;남광우
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.29-36
    • /
    • 2017
  • 본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

클러스터링 기반 협업 필터링 알고리즘을 사용한 분산 추천 시스템 (Distributed Recommendation System Using Clustering-based Collaborative Filtering Algorithm)

  • 조현제;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 협업 필터링 알고리즘을 클러스터링 기반으로 분산 환경에서 구현하여, 추천을 위한 수행 시간을 최적화 하는 방법에 대한 제안을 한다. 하둡 기반으로 시스템을 구성하였고, 분산 Min-hash 클러스터링 기반의 협업 필터링 방법을 제안하고, 이를 기반으로 분산 추천 시스템을 구성하였다. 분산 사용자 기반 협업 필터링 기법을 사용하여 무비렌즈 (Movie Lens)의 영화 평점 데이터를 기반으로 각각의 사용자에게 알맞은 영화를 추천해주는 분산추천 시스템을 구현하고 실험을 통하여 성능의 우수성을 검증하였다.

하둡 분산 환경 기반 프라이버시 보호 빅 데이터 배포 시스템 개발 (Development of a Privacy-Preserving Big Data Publishing System in Hadoop Distributed Computing Environments)

  • 김대호;김종욱
    • 한국멀티미디어학회논문지
    • /
    • 제20권11호
    • /
    • pp.1785-1792
    • /
    • 2017
  • Generally, big data contains sensitive information about individuals, and thus directly releasing it for public use may violate existing privacy requirements. Therefore, privacy-preserving data publishing (PPDP) has been actively researched to share big data containing personal information for public use, while protecting the privacy of individuals with minimal data modification. Recently, with increasing demand for big data sharing in various area, there is also a growing interest in the development of software which supports a privacy-preserving data publishing. Thus, in this paper, we develops the system which aims to effectively and efficiently support privacy-preserving data publishing. In particular, the system developed in this paper enables data owners to select the appropriate anonymization level by providing them the information loss matrix. Furthermore, the developed system is able to achieve a high performance in data anonymization by using distributed Hadoop clusters.

빅데이터 처리를 위한 PC와 라즈베리파이 클러스터에서의 Apache Spark 성능 비교 평가 (Performance Evaluation Between PC and RaspberryPI Cluster in Apache Spark for Processing Big Data)

  • 서지혜;박미림;양혜경;용환승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1265-1267
    • /
    • 2015
  • 최근 IoT 기술의 등장으로 저전력 소형 컴퓨터인 라즈베리파이 클러스터가 IoT 데이터 처리를 위해 사용되고 있다. IoT 기술이 발전하면서 다양한 데이터가 생성되고 있으며 IoT 환경에서도 빅데이터 처리가 요구되고 있다. 빅데이터 처리 프레임워크에는 일반적으로 하둡이 사용되고 있으며 이를 대체하는 솔루션으로 Apache Spark가 등장했다. 본 논문에서는 PC와 라즈베리파이 클러스터에서의 성능을 Apache Spark를 통해 비교하였다. 본 실험을 위해 Yelp 데이터를 사용하며 데이터 로드 시간과 Spark SQL을 이용한 데이터 처리 시간을 통해 성능을 비교하였다.

하둡 시스템 정보의 이상탐지를 위한 시각화 (Visualization of Anomaly Detection in Hadoop System Information)

  • 양석우;손시운;길명선;문양세;원희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.702-705
    • /
    • 2015
  • 본 논문에서는 하듐 환경에서 시스템 정보의 이상탐지를 위한 시각화 기능을 설계 및 구현한다. 제안한 이상탐지 시각화 기능은 크게 세 단계로 구분된다. 먼저, 각 노드로부터 시스템 로그 데이터(캐시 및 메인 메모리)를 수집하여 하이브(Hive) 저장한다. 그리고 저장한 데이터에 3-시그마 규칙을 적용하여 이상탐지를 수행한 후 관계형 데이터베이스에 적합하도록 재가공한다. 마지막으로, 스쿱(Sqoop)을 통해 RDBMS(MariaDB)에 이상탕지 결과를 저장하고, DHTMLX 차트 라이브러리를 사용하여 이를 시각화한다. 시각화 결과, 로그 데이터의 이상탐지와 데이터간의 상관관계를 직관적으로 이해할 수 있게 되었다.

라즈베리파이 보드 기반의 빅데이터 분석을 위한 학습 시스템 (Learning System for Big Data Analysis based on the Raspberry Pi Board)

  • 김영근;조민희;김원중
    • 한국전자통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.433-440
    • /
    • 2016
  • 최근 IT분야에서 화두가 되고 있는 빅데이터 처리를 위한 시스템 환경의 구축을 위해서는 다수의 컴퓨터를 네트워크 장비를 통해 연결하여 노드를 구성하거나, 하나의 컴퓨터에 다수의 가상 호스트를 통한 클라우딩 환경을 구축하여야 한다. 그러나 이러한 빅데이터 분석 시스템을 구축하는 것은 복잡한 시스템 구성과 비용적인 측면에서 많은 제약이 따른다. 이러한 제약은 중요한 국가 경쟁력의 하나로 부각되고 있는 빅데이터 전문 인력 양성에 큰 걸림돌이 되고 있다. 이에 본 연구에서는 빅데이터 분야의 인력 양성을 위한 교육현장에서 저렴한 가격으로 실용적인 교육이 가능한 라즈베리파이 보드 기반의 교육용 빅데이터 분석 시스템을 제안하였다.

스파크를 이용한 머신러닝의 분산 처리 성능 요인 (Performance Factor of Distributed Processing of Machine Learning using Spark)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.19-24
    • /
    • 2021
  • 본 논문에서는 아파치 스파크를 이용하여 머신러닝을 분산 처리할 때의 성능 요인을 분석하고 효율적인 분산 처리를 위한 실행 환경을 실험을 통해 제시한다. 먼저, 분산 클러스터 환경에서 머신러닝을 수행할 때 고려해야 하는 성능 요인으로 클러스터의 성능, 데이터의 규모, 스파크 엔진의 속성으로 구분하여 분석한다. 그리고 하둡 클러스터에서 동작하는 스파크 MLlib을 이용하여 회귀분석을 수행할 때 노드의 구성과 스파크 Executor의 설정을 변화하면서 성능을 측정한다. 실험 결과 최적의 Executor 개수는 데이터의 블록의 수에 영향을 받으나 클러스터 규모에 따라 최대값, 최소값은 각각 코어의 수, 워커 노드의 수로 제한됨을 실증하였다.

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법 (A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.307-319
    • /
    • 2015
  • 현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

Hadoop기반의 공개의료정보 빅 데이터 분석을 통한 한국여성암 검진 요인분석 서비스 (Analysis of Factors for Korean Women's Cancer Screening through Hadoop-Based Public Medical Information Big Data Analysis)

  • 박민희;조영복;김소영;박종배;박종혁
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1277-1286
    • /
    • 2018
  • 본 논문에서는 공개의료정보 빅데이터 분석을 위해 클라우드 환경에서 아파치 하둡 기반의 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하고 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함했다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 빅데이터 분석을 위해 빈도분석과 카이제곱검정을 수행하고 유의 수준 0.05를 기준으로 단변량 로지스틱 회귀분석과 모델별 의미 있는 변수들의 다변량 로지스틱 회귀분석을 시행 하였다. (p<0.05) 의미 있는 변수들을 모델별로 나누어 다변량 로지스틱 회귀 분석한 결과 Model 3으로 갈수록 적합도가 높아졌다.

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.