• Title/Summary/Keyword: HADOOP

Search Result 397, Processing Time 0.032 seconds

The Distributed Encryption Processing System for Large Capacity Personal Information based on MapReduce (맵리듀스 기반 대용량 개인정보 분산 암호화 처리 시스템)

  • Kim, Hyun-Wook;Park, Sung-Eun;Euh, Seong-Yul
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.3
    • /
    • pp.576-585
    • /
    • 2014
  • Collecting and utilizing have a huge amount of personal data have caused severe security issues such as leakage of personal information. Several encryption algorithms for collected personal information have been widely adopted to prevent such problems. In this paper, a novel algorithm based on MapReduce is proposed for encrypting such private information. Furthermore, test environment has been built for the performance verification of the distributed encryption processing method. As the result of the test, average time efficiency has improved to 15.3% compare to encryption processing of token server and 3.13% compare to parallel processing.

Usefulness of RHadoop in Case of Healthcare Big Data Analysis (RHadoop을 이용한 보건의료 빅데이터 분석의 유효성)

  • Ryu, Wooseok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.115-117
    • /
    • 2017
  • R has become a popular analytics platform as it provides powerful analytic functions as well as visualizations. However, it has a weakness in which scalability is limited. As an alternative, the RHadoop package facilitates distributed processing of R programs under the Hadoop platform. This paper investigates usefulness of the RHadoop package when analyzing healthcare big data that is widely open in the internet space. To do this, this paper has compared analytic performances of R and RHadoop using the medical treatment records of year 2015 provided by National Health Insurance Service. The result shows that RHadoop effectively enhances processing performance of healthcare big data compared with R.

  • PDF

Hadoop Based Wavelet Histogram for Big Data in Cloud

  • Kim, Jeong-Joon
    • Journal of Information Processing Systems
    • /
    • v.13 no.4
    • /
    • pp.668-676
    • /
    • 2017
  • Recently, the importance of big data has been emphasized with the development of smartphone, web/SNS. As a result, MapReduce, which can efficiently process big data, is receiving worldwide attention because of its excellent scalability and stability. Since big data has a large amount, fast creation speed, and various properties, it is more efficient to process big data summary information than big data itself. Wavelet histogram, which is a typical data summary information generation technique, can generate optimal data summary information that does not cause loss of information of original data. Therefore, a system applying a wavelet histogram generation technique based on MapReduce has been actively studied. However, existing research has a disadvantage in that the generation speed is slow because the wavelet histogram is generated through one or more MapReduce Jobs. And there is a high possibility that the error of the data restored by the wavelet histogram becomes large. However, since the wavelet histogram generation system based on the MapReduce developed in this paper generates the wavelet histogram through one MapReduce Job, the generation speed can be greatly increased. In addition, since the wavelet histogram is generated by adjusting the error boundary specified by the user, the error of the restored data can be adjusted from the wavelet histogram. Finally, we verified the efficiency of the wavelet histogram generation system developed in this paper through performance evaluation.

Design and Implementation of RDBMS-based Management of Hadoop Metadata (RDBMS 기반 하둡 메타데이터 관리의 설계 및 구현)

  • Son, Siwoon;Yang, Seokwoo;Gil, Myeong-Seon;Moon, Yang-Sae;Nguyen, Minh Chau;Won, Hee-Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1193-1195
    • /
    • 2015
  • 최근 빅데이터 문제를 해결하기 위해 하둡의 사용이 급증하였다. 하둡은 다수의 노드에 데이터를 분산 저장 및 처리하며, 이를 위해 모든 메타데이터를 네임노드에서 관리한다. 기존 하둡은 모든 메타데이터를 메모리 상에서 관리하며, 변경 이력을 로컬 파일 시스템에서 별도의 파일로 관리한다. 이 방법에서는 데이터의 증가 및 하둡 에코시스템의 확장 등의 이유로 관리되어야 할 메타데이터가 크게 증가하며, 이는 곧 네임노드의 메모리 부하를 높이는 문제가 있다. 본 논문은 이러한 인메모리 기반의 하둡 메타데이터 관리 구조를 RDBMS 기반으로 수정하도록 설계 및 구현한다. 그리고 하둡의 모든 명령어에 대한 테스트를 작성하여 본 연구의 적정성을 검토하였다. 본 논문은 네임노드의 부하를 줄임으로써 하둡의 안정성을 높이는 좋은 연구 결과라 사료된다.

Design and Implementation of HDFS data encryption scheme using ARIA algorithms on Hadoop (하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법의 설계 및 구현)

  • Song, Youngho;Shin, YoungSung;Yoon, Min;Jang, Miyoung;Chang, Jae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.613-616
    • /
    • 2015
  • 최근 스마트폰 기기의 보급 및 소셜 서비스 산업의 고도화로 인해, 빅데이터가 등장하였다. 한편 빅데이터에서 효율적으로 정보를 분석하는 대표적인 플랫폼으로 하둡이 존재한다. 하둡은 클러스터 환경에 기반한 우수한 확장성, 장애 복구 기능 및 사용자가 기능을 정의할 수 있는 맵리듀스 프레임워크 등을 지원한다. 아울러 하둡은 개인정보나 위치 데이터 등의 민감한 정보를 보호하기 위해 Kerberos를 통한 사용자 인증 기법을 제공하고, HDFS 압축 코덱을 활용한 AES 코덱 기반 데이터 암호화를 지원하고 있다. 그러나 하둡 기반 소프트웨어를 사용하고 있는 국내 기관 및 기업은 국내 ARIA 데이터 암호화를 적용하지 못하고 있다. 이를 해결하기 위해 본 논문에서는 하둡을 기반으로 ARIA 암호화를 지원하는 HDFS 데이터 암호화 기법을 제안한다.

Mechanism to Select the Data Source of HDFS with SSD Cache Based on Storage I / O Cost (SSD 캐시를 적용한 HDFS의 I/O 비용 기반 데이터 선택 기법)

  • Kim, Minkyung;Shin, Mincheol;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.676-679
    • /
    • 2015
  • 빅데이터 분석을 위한 Hadoop 환경에서 고성능 저장장치인 SSD에 대한 중요성이 증가하면서 일반적으로 사용되는 저장장치인 HDD와 혼합하여 사용하는 연구들이 주목 받고 있다. 특히 SSD를 HDD의 캐시로 사용했을 때 저장장치에 대한 I/O 성능을 향상할 수 있다는 연구 결과들이 있다. 본 연구는 이를 바탕으로 SSD를 HDD의 캐시로 사용한다. HDFS는 저장장치에 접근하여 I/O를 수행하는데 기존에는 로컬 서버에서 캐시 미스가 발생한 경우 로컬 HDD로 접근한다. 이러한 방식은 접근하는 데이터에 따라 SSD의 높은 Bandwidth를 활용하지 못하게 되는 경우를 발생시키고 그 결과 특정 서버의 I/O 지연으로 전체 분산 처리의 성능을 저하시킬 수 있다. 이를 해결하기 위해 본 연구는 HDFS 레벨에서 로컬 서버의 HDD와 데이터 복제본들이 저장된 원격 서버의 SSD에서 I/O를 수행하는 경우에 대해 수식을 통해 비용을 비교한다. 그 결과 항상 기대 성능이 높은 저장 장치를 선택하여 데이터를 읽어오게 함으로써 기존 방식보다 성능이 개선될 수 있음을 입증한다.

Job Scheduling for Efficient E-Book Conversion in Load Balancing Systems (분산 환경에서의 효율적인 E-Book 변환을 위한 작업 배분)

  • An, Jae-Ho;Hwang, Dong-Yeop;Kang, Min-Ji;Choi, Kwang-Hoon;Kim, Jai-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.97-100
    • /
    • 2014
  • 전자책 (E-Book)에 대한 수요가 커짐에 따라서 전자책 시장이 점점 커지고 있다. 이에 PDF 와 같은 다른 형태의 문서들을 전자책으로 변환하는 프로그램 및 서비스들에 대한 요구가 늘어가고 있다. 전자책의 공급 규모가 커지고 형식이 발전함에 따라서 대규모의 전자책들을 빠르고 효율적으로 변환 가능하게 하는 환경의 조성이 필요하게 되었다. 기존 시장에 배포되거나 출판된 PDF형식의 문서를 오픈소스 변환 라이브러리를 이용하여 변환할 수 있는 변환기를 작성하고, 이를 이용해 대규모 PDF 를 저장하고 있는 분산 저장 시스템에서 백그라운드 배치 작업으로 변환할 수 있는 구조를 설계 및 제안한다. 본 논문에서는 전자책의 효율적인 변환을 위한 분산 환경에서의 작업 배분방법을 다룬다.

A Movie Recommender Systems using Personal Disposition in Hadoop (하둡에서 개인 성향을 이용한 영화 추천시스템)

  • Kim, Sun-Ho;Kim, Se-Jun;Mo, Ha-Young;Kim, Chae-Reen;Park, Gyu-Tae;Park, Doo-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.642-644
    • /
    • 2014
  • 정보의 폭발적인 증가로 인해 사용자들은 오히려 원하는 정보를 빠른 시간에 얻는 것이 힘들어졌다. 따라서 이 문제를 해결하기 위한 다양한 방식의 새로운 서비스들이 제공되고 있다. 추천 시스템 중에서 영화를 추천해주는 방법에는 사용되는 알고리즘에는 협업필터링 방법이 가장 성공한 알고리즘으로 사용되고 있다. 협업 필터링 방법은 사용자가 자발적으로 입력한 선호도 평가치를 바탕으로 추천 하고자 하는 사용자와 취향이 비슷하다고 판단되는 사람들 즉, 최근접 이웃을 구하고 최근접 이웃의 선호도 평가치를 바탕으로 사용자에게 영화를 추천을 해주는 기법이다. 그러나 협업 필터링에는 몇 가지 대표적인 문제점이 있으며 희박성 및 확장성, 투명성이 있다. 본 논문에서는 영화 추천 시스템에서의 협업필터링의 희박성 문제를 보완하고자 개개인의 성향을 반영하여 효율이 좋은 추천 방법을 제안하고 하둡에서 성능평가를 하였다.

A Study on Performance Improvement of Distributed Computing Framework using GPU (GPU를 활용한 분산 컴퓨팅 프레임워크 성능 개선 연구)

  • Song, Ju-young;Kong, Yong-joon;Shim, Tak-kil;Shin, Eui-seob;Seong, Kee-kin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.499-502
    • /
    • 2012
  • 빅 데이터 분석의 시대가 도래하면서 대용량 데이터의 특성과 계산 집약적 연산의 특성을 동시에 가지는 문제 해결에 대한 요구가 늘어나고 있다. 대용량 데이터 처리의 경우 각종 분산 파일 시스템과 분산/병렬 컴퓨팅 기술들이 이미 많이 사용되고 있으며, 계산 집약적 연산 처리의 경우에도 GPGPU 활용 기술의 발달로 보편화되는 추세에 있다. 하지만 대용량 데이터와 계산 집약적 연산 이 두 가지 특성을 모두 가지는 문제를 처리하기 위해서는 많은 제약 사항들을 해결해야 하는데, 본 논문에서는 이에 대한 대안으로 분산 컴퓨팅 프레임워크인 Hadoop MapReduce와 Nvidia의 GPU 병렬 컴퓨팅 아키텍처인 CUDA 흘 연동하는 방안을 제시하고, 이를 밀집행렬(dense matrix) 연산에 적용했을 때 얻을 수 있는 성능 개선 효과에 대해 소개하고자 한다.

A Study on the Customized Food Menu Recommendation System Based on ICT and Big Data (ICT 및 빅데이터기반 맞춤형 음식메뉴 추천시스템 연구)

  • Ryoo, Hee-Soo;Lee, Man-ting
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.2
    • /
    • pp.339-346
    • /
    • 2021
  • In this paper, we implemented an interface that provides a better food ordering mechanism and enables real-time selection of recipe ingredient ratios for customized food orders from global customers. Providing appropriate food to global customers by arranging a selection of menu on the order system screen that shows the basic ratio of each recipe ingredient and provides a customized recipe ingredient composition ratio by configuring a recipe graph without a system for simply selecting and ordering food menus. By enabling interaction, it allows users to provide customized services through the ratio adjustment of various recipe ingredients in the food menu ordering device