• Title/Summary/Keyword: Big data Processing

Search Result 1,063, Processing Time 0.03 seconds

Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL (OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크)

  • Kim, Daehee;Park, Neungsoo
    • The Transactions of The Korean Institute of Electrical Engineers
    • /
    • v.67 no.2
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

Design and Implementation of Smart Alarm Application Using Big Data (빅 데이터를 이용한 스마트 알람 어플리케이션 설계와 개발)

  • Lee, Sunghyun;Kim, Dongyun;Jo, Sanghyun;Ahn, Taeho;Han, Kwanghyuk;Park, Eunju;Lim, Hankyu
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.160-163
    • /
    • 2017
  • 개인적인 활동들 전반에 걸쳐 스마트폰이 PC를 대체하고 있는 것으로 조사되었다. 스마트폰 사용자의 증가와 함께 다양한 어플리케이션이 개발되고 있고, 알람 어플리케이션은 혼자서 생활하는 시간이 많은 현대인들에게는 꼭 필요한 어플리케이션 가운데 하나이다. 이에 본 논문에서는 현대인들의 생활 패턴을 고려하여 기본적인 알람기능에 빅데이터를 이용한 알람음악 랭킹 제공, 날씨와 교통정보 제공, 일정관리 기능 등을 추가한 '빅데이터를 이용한 스마트 알람 시스템'을 개발하였다. 본 논문에서 개발한 어플리케이션은 바쁜 현대인의 아침시간에 여러 개의 어플리케이션을 사용할 필요가 없도록 사용자 편리성을 높인 알람 어플리케이션으로 개발하였다.

Correlation Analysis between News Articles and Music Charts using Big Data Technologies based on R (R 기반의 빅데이터 기술을 활용한 뉴스기사와 음원차트의 상관관계 분석)

  • Ha, Jung-chul;Kang, Dong-hoon;Park, Jae-mo;Gil, Joon-Min
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.636-639
    • /
    • 2016
  • 빅데이터의 일종인 뉴스기사 중에 아이돌 그룹관련 뉴스기사는 아이돌 그룹의 대중적 인기에 힘입어 전체 연예계 기사 중에 점점 큰 비중을 차지하고 있다. 아이돌 그룹의 소속사는 여러 홍보 방법 중 뉴스기사의 노출을 통해 비교적 저렴한 비용으로 홍보하여 음원차트 순위 향상을 위해 노력하고 있다. 본 논문에서는 뉴스기사와 음원차트 간의 상관관계를 분석하여 뉴스기사의 노출이 효율적 홍보 수단 인지를 알아보기 위해 먼저 감성분석을 통해 긍정기사와 부정기사가 음원차트 순위에 미치는 영향을 분석하고, 뉴스기사의 수가 많을수록 음원차트 순위가 상승하는지에 대해 알아보고자 한다. 이를 위해 본 논문에서는 R 언어를 이용하여 데이터 수집을 위한 웹 크롤러 설계, 회귀분석을 이용한 감성사전 구축 및 감성분석, 마지막으로 피어스만 상관계수를 이용한 상관관계 분석을 수행한다.

Big Data based Classroom Assignment Algorithm and its Application to the Academics System (데이터에 근거한 강의실 자동 배정 알고리즘 설계와 학사관리 시스템 적용사례)

  • Chin, Sang-Kyu;Kim, Seung-Hwan;Lee, Soon-Kyo;Cheong, Taesu
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.348-351
    • /
    • 2016
  • 대학에서는 매학기 개설된 수업에 대해 강의실 배정작업을 진행하고 있으며 대부분의 대학에서는 년4회(1 2학기, 여름, 겨울 계절학기) 수작업으로 반복적인 강의실 배정 작업을 수행하고 있다. 강의실 배정작업은 교수가 선호하는 강의실 또는 교과목특성(실험과목 및 대형 강의)이 반영된 강의실 등 다양한 조건에 의해 강의실을 배정하고 있으며 수작업으로 일일이 강의실을 배정 하는 데에는 상당한 시간이 소요되고 있다. 몇몇 대학에서는 강의실 배정작업을 개선하기 위해 교수 및 강의실의 특성을 고려한 강의실 자동 배정 시스템을 구축을 시도 하였으나, 많은 변수로 인해 여전히 수작업으로 강의실을 배정하고 있다. 이에 본 연구에서는 강의실 자동 배정 시스템을 구축하기 위한 방법으로 최근 3년간 기 배정된 강의실 빅 데이터 자료를 기반으로 작성된 강의실 자동 배정 알고리즘을 제시하고 실적용한 고려대학교 시스템 구축 사례를 살펴보고자 한다.

Security and Privacy Issues of Fog Computing (포그 컴퓨팅 환경에서의 보안 및 프라이버시 이슈에 대한 연구)

  • Nam, Hyun-Jae;Choi, Ho-Yeol;Shin, Hyung-June;Kwon, Hyun-Soo;Jeong, Jong-Min;Hahn, Chang-Hee;Hur, Jun-Beom
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.42 no.1
    • /
    • pp.257-267
    • /
    • 2017
  • With the development of IoT (Internet of Things) technology, the application area has been diversified and the number of users using this service also has increased greatly. Real time big data generated by many IoT devices is no longer suitable for processing in a cloud computing environment. To solve this issue, fog computing is suggested which minimizes response time and makes real time processing suitable. However, security requirement for new paradigm called fog computing is not established until now. In this paper, we define models for fog computing, and the security requirements for the defined model.

Design of Clinical Big data-based Verifiability Identification Process through Characterization of Medical Device (의료기기의 특성 분석을 통한 임상 빅데이터 기반 검증 가능성 식별 프로세스 설계)

  • Choi, Yoo-Rim;Park, Ye-Seul;Lee, Jung-Won
    • Annual Conference of KIPS
    • /
    • 2017.11a
    • /
    • pp.753-756
    • /
    • 2017
  • 의료기기는 사람의 생명과 직접적으로 연관되어 있기 때문에 다른 분야의 기기보다 안전성에 대한 검증이 필수적이다. 의료 분야에서는 안전성 검증을 위해 기기의 허가 심사 조건으로서 소수의 피험자를 대상으로 수행되는 임상 시험이 존재한다. 그러나 임상 시험의 경우 의료기기를 직접 사람에게 적용하여 검증을 진행하기 때문에, 인체에 미칠 위해성을 고려하여 전임상 시험을 수행하고 있다. 하지만 전임상 시험은 동물이나 가상의 물체를 대상으로 수행하여 실제 사람에 대한 적용이 아니기 때문에, 임상 시험에 비해 검증에 대한 효력을 갖지 못한다. 따라서 본 연구에서는 피험자의 안전을 보장할 수 있고, 임상 빅데이터에 축적된 실제 환자의 사례를 활용한 신뢰성 있는 검증 방안을 제안하고자 한다. 그러나 현재 식품의약품안전처에서 제공되고 있는 의료기기 품목군은 개발하고자 하는 의료기기의 임상 빅데이터 기반 검증 가능성을 식별하기 어렵다. 그러므로 본 논문에서는 의료기기에 대한 다양한 특성 분석을 통해 임상 빅데이터 기반 검증 가능성을 식별하기 위한 프로세스를 제안한다. 제안하는 프로세스에서는 의료기기의 검증에 요구되는 데이터의 식별을 통해 임상 빅데이터를 이용한 테스트 데이터 수집 및 이를 활용한 신뢰성 높은 검증을 가능케 한다.

Delayed Block Replication Scheme of Hadoop Distributed File System for Flexible Management of Distributed Nodes (하둡 분산 파일시스템에서의 유연한 노드 관리를 위한 지연된 블록 복제 기법)

  • Ryu, Woo-Seok
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.12 no.2
    • /
    • pp.367-374
    • /
    • 2017
  • This paper discusses management problems of Hadoop distributed node, which is a platform for big data processing, and proposes a novel technique for enabling flexible node management of Hadoop Distributed File System. Hadoop cannot configure Hadoop cluster dynamically because it judges temporarily unavailable nodes as a failure. Delayed block replication scheme proposed in this paper delays the removal of unavailable node as much as possible so as to be easily rejoined. Experimental results show that the proposed scheme increases flexibility of node management with little impact on distributed processing performance when the cluster size changes.

Design of Building Energy Management System Using Big data Platform (빅데이터 플랫폼 기반 건물 에너지 통합 관리 시스템 설계)

  • Kim, Tae-Hyung;Jeong, Yeon-Kwae;Lee, Il-Woo
    • Annual Conference of KIPS
    • /
    • 2016.04a
    • /
    • pp.580-581
    • /
    • 2016
  • 국제적으로 지속적인 이슈가 되고 있는 에너지 절감에 대한 대책으로 다양한 에너지 절감 기술들이 연구 개발되고 있다. 특히 전체 에너지 사용량의 약 20%이상을 차지하는 건물(가정/상업/공공)부문에서는 에너지 진단 및 분석을 수행하기 위해 건물 에너지 관리 시스템(BEMS: Building Energy Management System)과 건물 자동화 시스템(BAS: Building Automation System) 그리고 다양한 환경정보들을 수집하여 활용한다. 하지만 기존 분석 방식은 결과의 신뢰성에 최소한의 영향을 주면서 데이터 관리 효율을 높이는 방법에 초점을 맞춰 연구가 진행되었으며, 이를 위해 기존에 수집된 데이터를 압축하거나 샘플링하는 사전 정제 과정을 거치게 되었다. 하지만 빅데이터 플랫폼을 활용하면 더 이상 신뢰성을 낮추면서까지 데이터를 정제할 필요가 없어지고, 수집되는 모든 데이터에 대한 다차원 분석을 빠르게 수행할 수 있게 된다. 따라서 본 논문에서는 하드웨어의 한계로 기존 건물에너지 진단 및 분석 시스템에서 제공하지 못했던 다양한 분석 및 진단 서비스들을 빠르고 정확하게 제공하도록 하는 빅데이터 플랫폼 기반 건물 에너지 통합 관리 시스템 설계에 대해 서술한다.

Intelligent Join Technique Selection Between Heterogeneous NoSQL Databases in Big Data Envionment (빅데이터 환경에서 이기종 NoSQL 데이터베이스 간의 지능적 조인 기법 선택)

  • Kang, Joo-Young;Kim, Gun-Woo;Park, Kyung-Wook;Lee, Dong-Ho
    • Annual Conference of KIPS
    • /
    • 2016.04a
    • /
    • pp.591-594
    • /
    • 2016
  • 최근 빅데이터 시대의 도래로 대량의 데이터에 대한 처리 및 분석 요구가 증가되면서 빅데이터를 저장하기 위해 개발된 NoSQL 데이터베이스 내의 조인 연산 필요성이 증대되고 있다. 빅데이터 환경에서는 다중 저장소 지속성의 개념에 따라 여러 NoSQL 데이터베이스를 동시 복합적으로 사용해야 하므로 이기종 NoSQL 데이터베이스간의 조인 연산이 중요시 되고 있다. 하지만 NoSQL 데이터베이스에서는 데이터 처리 과정에서 발생하는 오버헤드로 인해 조인 연산을 지원하지 않거나 조인 연산 시 성능저하가 발생한다. 이러한 조인 연산에 대한 오버헤드를 줄이기 위해 애플리케이션 단에서 맵리듀스 프레임워크를 활용한 다양한 조인 전략 연구들이 제시되었지만 단일 NoSQL 데이터베이스를 위한 방법이며 조인에 참여하는 데이터의 특성 및 연관성을 사전에 파악하고 있어야하는 한계점이 존재한다. 본 논문은 조인 연산에 참여하는 데이터에 대한 사전 정보 없이 빅데이터 환경에서 이기종 NoSQL 데이터베이스간의 조인 연산을 지원하기 위해 데이터 집합 분석, 질의 재배치, 조인 전략 자동 선정, 조인 결과가 저장될 데이터베이스 자동 선택 단계를 통한 지능적 조인 처리 기법을 제시한다.

Weighted Local Naive Bayes Link Prediction

  • Wu, JieHua;Zhang, GuoJi;Ren, YaZhou;Zhang, XiaYan;Yang, Qiao
    • Journal of Information Processing Systems
    • /
    • v.13 no.4
    • /
    • pp.914-927
    • /
    • 2017
  • Weighted network link prediction is a challenge issue in complex network analysis. Unsupervised methods based on local structure are widely used to handle the predictive task. However, the results are still far from satisfied as major literatures neglect two important points: common neighbors produce different influence on potential links; weighted values associated with links in local structure are also different. In this paper, we adapt an effective link prediction model-local naive Bayes model into a weighted scenario to address this issue. Correspondingly, we propose a weighted local naive Bayes (WLNB) probabilistic link prediction framework. The main contribution here is that a weighted cluster coefficient has been incorporated, allowing our model to inference the weighted contribution in the predicting stage. In addition, WLNB can extensively be applied to several classic similarity metrics. We evaluate WLNB on different kinds of real-world weighted datasets. Experimental results show that our proposed approach performs better (by AUC and Prec) than several alternative methods for link prediction in weighted complex networks.