• 제목/요약/키워드: SPARK 플랫폼

검색결과 35건 처리시간 0.028초

Design and Implementation of a Big Data Analytics Framework based on Cargo DTG Data for Crackdown on Overloaded Trucks

  • Kim, Bum-Soo
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.67-74
    • /
    • 2019
  • 본 논문에서는 과적 화물차량 단속을 위한 대용량 화물 DTG 데이터 분석 플랫폼을 설계 및 구현한다. DTG(digital tachograph)는 차량운행기록을 실시간으로 저장하는 장치로서, 차량의 GPS, 속도, RPM, 제동유무, 이동거리 등 차량운행 관련 데이터가 1초 단위로 기록된다. 차량 운행 패턴 및 분석을 하기 위해서는 DTG 데이터의 빠른 처리가 필수적이며, 특히 대용량 DTG 데이터를 가공 및 변환하기 위해서는 빅데이터 분석 플랫폼이 필요하다. 본 논문에서는 오픈소스 기반의 빅데이터 프레임워크인 스파크(Spark)를 이용하여 과적차량 단속을 위한 대용량 화물 DTG 데이터의 분석 플랫폼을 구현하였다. 구현 결과, 실제 대용량 화물 DTG 데이터를 GIS 데이터로 변환하여 지도상에 표현하고 단속 추천 지점을 보여준다.

GPGPU를 활용한 스파크 기반 공간 연산 (Spatial Computation on Spark Using GPGPU)

  • 손찬승;김대희;박능수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권8호
    • /
    • pp.181-188
    • /
    • 2016
  • 최근 급격히 증가하는 공간 데이터를 효율적으로 처리하기 위해 많은 연구들이 진행되고 있다. 기존 관계형 데이터베이스 시스템을 확장한 공간 데이터베이스 시스템은 확장성에 대한 문제가 있으며, 분산 처리 플랫폼인 하둡을 확장한 SpatialHadoop은 중간 연산 결과를 디스크에 작성하기 때문에 파일 입출력의 오버헤드로 성능이 저하되는 문제가 있다. 본 논문은 인-메모리 기반 분산 처리 프레임워크인 스파크를 확장한 공간 연산 스파크를 제안하였다. 또한 공간 연산 스파크의 성능을 향상시키기 위하여 GPGPU를 결합한 모델을 개발하였다. 공간 연산 스파크는 중간 연산 결과를 메모리에 유지시키는 스파크의 특징을 그대로 사용하고 있으며, GPGPU 기반 공간 연산 스파크의 경우 다수의 PE를 이용하여 병렬처리하기 때문에 효율적으로 공간 연산을 수행할 수 있다. 본 논문은 단일 AMD 시스템에서 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크를 구현하였다. 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크의 성능을 평가하기 위하여 Point-in-Polygon 연산과 Spatial Join 연산을 수행하였으며, SpatialHadoop에 비하여 최대 8배의 성능 향상을 확인하였다.

클라우드 컴퓨팅 환경에서의 학습용 빅 데이터 플랫폼 설계 (Big Data Platform for Learning in Cloud Computing Environment)

  • 김준헌
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.63-64
    • /
    • 2017
  • 정보 기술의 끊임없는 발전에 따라 광범위한 분야에서 방대한 양의 데이터가 발생하게 되면서 이를 처리하기 위한 빅 데이터에 대한 연구 및 교육이 활발히 진행되고 있다. 이를 위하여 데이터 분석 및 처리를 위한 고성능의 서버 및 분산 처리를 위한 다수의 컴퓨터가 필요하며 이는, 개인 혹은 저사양의 수업 환경에서 빅 데이터를 학습하는 데에 어려움을 겪게 한다. 때문에 가상 환경에서 원활한 빅 데이터 학습을 위한 클라우드 기반의 시스템이 필요하다. 이에 본 논문에서는, 빅 데이터 처리 기술의 하나인 Spark를 이용한 빅 데이터 플랫폼 구축에 대하여 기술한다.

  • PDF

실시간 데이터 처리를 위한 아파치 스파크 기반 기계 학습 라이브러리 성능 비교 (A Performance Comparison of Machine Learning Library based on Apache Spark for Real-time Data Processing)

  • 송준석;김상영;송병후;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.15-16
    • /
    • 2017
  • IoT 시대가 도래함에 따라 실시간으로 대규모 데이터가 발생하고 있으며 이를 효율적으로 처리하고 활용하기 위한 분산 처리 및 기계 학습에 대한 관심이 높아지고 있다. 아파치 스파크는 RDD 기반의 인 메모리 처리 방식을 지원하는 분산 처리 플랫폼으로 다양한 기계 학습 라이브러리와의 연동을 지원하여 최근 차세대 빅 데이터 분석 엔진으로 주목받고 있다. 본 논문에서는 아파치 스파크 기반 기계 학습 라이브러리 성능 비교를 통해 아파치 스파크와 연동 가능한 기계 학습라이브러리인 MLlib와 아파치 머하웃, SparkR의 데이터 처리 성능을 비교한다. 이를 위해, 대표적인 기계 학습 알고리즘인 나이브 베이즈 알고리즘을 사용했으며 학습 시간 및 예측 시간을 비교하여 아파치 스파크 기반에서 실시간 데이터 처리에 적합한 기계 학습 라이브러리를 확인한다.

  • PDF

농업 빅데이터 수집 및 분석을 위한 플랫폼 설계 (Design of a Platform for Collecting and Analyzing Agricultural Big Data)

  • 뉘엔 반 퀴엣;뉘엔 신 녹;김경백
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.149-158
    • /
    • 2017
  • 빅데이터는 경제개발에서 흥미로운 기회와 도전을 보여왔다. 예를 들어, 농업 분야에서 날씨 데이터 및 토양데이터와 같은 복합데이터의 조합과 이들의 분석 결과는 농업종사자 및 농업경영체들에게 귀중하고 도움되는 정보를 제공한다. 그러나 농업 데이터는 센서들과 농업 웹 마켓 등의 다양한 형태의 장치 및 서비스들을 통해 매 분마다 대규모로 생성된다. 이는 데이터 수집, 저장, 분석과 같은 빅데이터 이슈들을 발생시킨다. 비록 몇몇 시스템들이 이 문제를 해결하기 위해 제안되었으나, 이들은 다루는 데이터 종류의 제약, 저장 방식의 제약, 데이터 크기의 제약 등의 문제를 여전히 가지고 있다. 이 논문에서는 농업데이터의 수집과 분석 플랫폼의 새로운 설계를 제안한다. 제안하는 플랫폼은 (1) Flume과 MapReduce를 이용한 다양한 데이터 소스들로부터의 데이터 수집 방법, (2) HDFS, HBase, 그리고 Hive를 이용한 다양한 데이터 저장 방법, (3) Spark와 Hadoop을 이용한 빅데이터 분석 모듈들을 제공한다.

Spark를 이용한 항목 추천 기법에 관한 연구 (Item Recommendation Technique Using Spark)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.715-721
    • /
    • 2018
  • 모바일 기기의 확산으로 소셜 네트워크 서비스나 전자상거래 사이트의 사용자 수가 급증하고 있고 사용자들이 남긴 데이터의 양도 기하급수적으로 증가하고 있다. 그로 인해 전자 상거래 기업들은 사용자들이 남긴 방대한 양의 데이터로부터 어떻게 유용한 정보를 추출할 것인가 하는 과제를 갖게 되었다. 이러한 문제를 해결하기 위해 추천 시스템에 빅 데이터 처리 기법을 적용한 다양한 연구들이 이루어지고 있다. 본 논문에서는 Apache Spark 플랫폼에서 Tag 가중치를 적용한 협업 필터링 기법을 사용한 추천방식을 제안한다. 제안하는 기법은 추천의 정확성을 높이기 위해 전처리 과정에서 Tag 데이터를 정제하고 아이템을 분류한 후 아이템 평가값에 기간 정보와 Tag 가중치를 적용하여 사용한다. RDD(Resilient Distributed Dataset)를 생성한 후 아이템 유사도와 예측값을 구하고 사용자에게 아이템을 추천한다. 실험을 통해 제안 하는 기법이 대량의 데이터를 빠르게 처리하고 추천의 적합성도 향상되는 것을 확인하였다.

라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구 (A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark)

  • 김영선;박지영;윤보람;이정현;용환승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

한국 보건의료 빅데이터 플랫폼에서 웹 기반 OLAP 서버 구현 (An Implementation of Web-Enabled OLAP Server in Korean HealthCare BigData Platform)

  • ;김진혁;정승현;이경희;조완섭
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.33-34
    • /
    • 2017
  • In 2015, Ministry of Health and Welfare of Korea announced a research and development plan of using Korean healthcare data to support decision making, reduce cost and enhance a better treatment. This project relies on the adoption of BigData technology such as Apache Hadoop, Apache Spark to store and process HealthCare Data from various institution. Here we present an approach a design and implementation of OLAP server in Korean HealthCare BigData platform. This approach is used to establish a basis for promoting personalized healthcare research for decision making, forecasting disease and developing customized diagnosis and treatment.

  • PDF

텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리 (Spark-Based Big Data Preprocessing for Text Summarization)

  • 지동준;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.383-385
    • /
    • 2022
  • 텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

스마트 플랜트를 위한 빅데이터 및 AutoML 플랫폼 개발 (Development of Big Data and AutoML Platforms for Smart Plants)

  • 강진영;정병석
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.83-95
    • /
    • 2023
  • 스마트 플랜트 발전에 있어서 빅데이터 분석과 인공지능은 중요한 역할을 한다. 본 연구에서는 플랜트 데이터를 위한 빅데이터 플랫폼과 인공지능 기반 플랜트 유지 관리를 위한 'AutoML 플랫폼'을 개발하였다. 빅데이터 플랫폼은 하둡, 스파크, 카프카를 활용하여 플랜트에서 발생하는 대용량의 데이터를 수집, 처리, 적재하는 플랫폼이다. AutoML 플랫폼은 설비의 예지보전 및 공정 최적화를 위한 예측 모델을 구축하는 머신러닝 자동화 시스템이다. 위 플랫폼은 기존 플랜트 운영 정보 시스템과의 호환성을 고려하여 데이터 파이프라인을 구성하고, 웹 기반 GUI를 통해 작업자의 접근성과 편의성을 향상하였으며, 데이터 처리와 학습 알고리즘에 사용자 정의 모듈을 탑재하는 기능을 통해 유연성을 증대시켰다. 본 논문은 국내 정유회사의 특정 공정을 대상으로 플랫폼을 실제 운영해보았고, 이를 통해 스마트 플랜트를 위한 효과적인 데이터 활용 플랫폼 사례를 제시한다.