• 제목/요약/키워드: Sqoop

검색결과 7건 처리시간 0.024초

아파치 스쿱을 사용한 하둡의 데이터 적재 성능 영향 요인 분석 (Analysis of the Influence Factors of Data Loading Performance Using Apache Sqoop)

  • ;고정현;여정모
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권2호
    • /
    • pp.77-82
    • /
    • 2015
  • 빅데이터 기술은 데이터 처리 속도가 빠르다는 면에서 주목을 받고 있다. 그리고 관계형 데이터베이스(Relational Database: RDB)에 저장되어있는 대용량 정형 데이터를 더 빠르게 처리하기 위해서 빅데이터 기술을 활용하는 연구도 진행되고 있다. 다양한 분산 처리 도구들을 사용하여 분석 성능을 측정하는 연구는 많지만 분석하기 전 단계인 정형 데이터 적재의 성능에 관한 연구는 미미하다. 때문에 본 연구에서는 RDB 안에 저장되어있는 정형 데이터를 아파치 스쿱(Apache Sqoop)을 사용하여 분산 처리 플랫폼 하둡(Hadoop)으로 적재하는 성능을 측정하였다. 그리고 적재에 영향을 미치는 요인을 분석하기 위해 여러 가지 영향 요소를 변경해가면서 반복적으로 실험을 수행하였고 RDB 기반으로 구성된 서버 간의 적재 성능과 비교하였다. 실험 환경에서 아파치 스쿱의 적재 속도가 낮았지만 실제 운영하고 있는 대규모 하둡 클러스터 환경에서는 더 많은 하드웨어 자원이 확보되기 때문에 훨씬 더 좋은 성능을 기대할 수 있다. 이는 향후 진행할 적재 성능 개선 및 하둡 환경에서 정형 데이터를 분석하는 전체적인 단계의 성능을 향상시킬 수 있는 방법에 대한 연구의 기반이 될 것으로 예상한다.

빅데이터 기반 의료 임상 결과 분석 (Big Data-based Medical Clinical Results Analysis)

  • 황승연;박지훈;윤하영;곽광진;박정민;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.187-195
    • /
    • 2019
  • 최근 빅데이터 관련 기술들이 발전함에 따라 다양한 분야에서 생성되는 데이터들을 수집하여 저장하고 처리 및 분석할 수 있게 되었다. 이러한 빅데이터 기술들을 임상 결과 분석에 활용하고, 임상시험 설계 최적화를 통해 보건의료분야에 투입되는 막대한 비용을 절감할 수 있을 것으로 전망된다. 따라서 본 논문에서는 임상 결과를 분석하여 임상시험 기간과 비용 등을 줄일 수 있는 가이드 정보를 제시하고자 한다. 먼저 Sqoop을 사용하여 임상 결과 데이터가 저장된 관계형 데이터 베이스로부터 HDFS에 수집하여 저장하고, 하둡을 기반으로 동작하는 처리 도구인 Hive를 이용하여 데이터를 처리한다. 공공분야, 기업 등 각 분야에서 많이 활용되고 있는 빅데이터 분석 도구인 R을 이용하여 연관성 분석을 한다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

IoT 환경을 위한 빅데이터 기반 센서 데이터 처리 및 분석 (Big Data-based Sensor Data Processing and Analysis for IoT Environment)

  • 신동진;박지훈;김주호;곽광진;박정민;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.117-126
    • /
    • 2019
  • IoT 환경에서 발생하는 데이터는 아주 다양하고, 4차 산업혁명의 발전으로 인해 특히 스마트팩토리와 같은 제조 설비 공장에서 발생하는 정형, 비정형 데이터도 확연하게 증가하는 추세이다. 이를 빅데이터 관련 솔루션을 이용하면 다양한 대용량 데이터의 수집, 저장, 처리, 분석 및 시각화 과정을 거쳐 정확한 분석 및 데이터 기반 의사결정을 통한 시스템의 개선 및 확장을 할 수 있다. 따라서 본 논문에서는 IoT 환경에서 사용되는 라즈베리 파이를 이용하여 직접 데이터를 생성하고, 다양한 빅데이터 솔루션을 이용하여 분석한다. 수집에는 Sqoop 솔루션을 이용하여 데이터베이스에서 HDFS로 수집 및 저장하고, 처리에는 Hadoop과 연결되어 병렬 처리가 가능한 Hive 솔루션을 사용하여 데이터를 처리한다. 마지막으로 범용적으로 쓰이는 R 프로그래밍을 통해 처리된 데이터를 분석 및 시각화하여 최종 검증하고자 한다.

정형 빅데이터 수집 모듈 구현 및 비교 (Implementation and comparison with Structured data collection modules)

  • 장동훤;이민우;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.635-638
    • /
    • 2014
  • 빅데이터 시대의 대두에 따라 기존의 관계형 데이터베이스로는 처리하기 어려운 형태의 데이터가 발생하였다. 이런 성질의 데이터를 저장, 활용하기 위한 방법으로 Apache 하둡이 널리 사용되고 있다. 기존의 RDBMS 상의 데이터를 하둡 데이터 분석의 원천 데이터로 활용하려고 하는 경우, 혹은 데이터 크기와 복잡도의 증가로 저장방식을 바꿔야 하는 경우 데이터를 HDFS(Hadoop Distributed File System) 으로 전송해야 한다. 본 논문에서는 정형 데이터 수집 모듈인 Sqoop과 Nosqoop4u의 개발을 통하여 데이터 전송 성능을 비교하였다.

하둡 시스템 정보의 이상탐지를 위한 시각화 (Visualization of Anomaly Detection in Hadoop System Information)

  • 양석우;손시운;길명선;문양세;원희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.702-705
    • /
    • 2015
  • 본 논문에서는 하듐 환경에서 시스템 정보의 이상탐지를 위한 시각화 기능을 설계 및 구현한다. 제안한 이상탐지 시각화 기능은 크게 세 단계로 구분된다. 먼저, 각 노드로부터 시스템 로그 데이터(캐시 및 메인 메모리)를 수집하여 하이브(Hive) 저장한다. 그리고 저장한 데이터에 3-시그마 규칙을 적용하여 이상탐지를 수행한 후 관계형 데이터베이스에 적합하도록 재가공한다. 마지막으로, 스쿱(Sqoop)을 통해 RDBMS(MariaDB)에 이상탕지 결과를 저장하고, DHTMLX 차트 라이브러리를 사용하여 이를 시각화한다. 시각화 결과, 로그 데이터의 이상탐지와 데이터간의 상관관계를 직관적으로 이해할 수 있게 되었다.

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.