DOI QR코드

DOI QR Code

Performance Evaluation of Medical Big Data Analysis based on RHadoop

RHadoop 기반 보건의료 빅데이터 분석의 성능 평가

  • Ryu, Woo-Seok (Dept. of Health Care Management, Catholic University of Pusan)
  • 류우석 (부산가톨릭대학교 병원경영학과)
  • Received : 2017.11.20
  • Accepted : 2018.02.15
  • Published : 2018.02.28

Abstract

As a data analysis tool which is becoming popular in the Big Data era, R is rapidly expanding its user range by providing powerful statistical analysis and data visualization functions. Major advantage of R is its functional scalability based on open source, but its scale scalability is limited, resulting in performance degrades in large data processing. RHadoop, one of the extension packages to complement it, can improve data analysis performance as it supports Hadoop platform-based distributed processing of programs written in R. In this paper, we evaluate the validity of RHadoop by evaluating the performance improvement of RHadoop in real medical big data analysis. Performance evaluation of the analysis of the medical history information, which is provided by National Health Insurance Service, using R and RHadoop shows that RHadoop cluster composed of 8 data nodes can improve performance up to 8 times compared with R.

빅데이터 시대에 각광받고 있는 데이터 분석 도구인 R은 강력한 통계 분석 기능과 데이터 가시화 기능을 제공함으로 인해 그 사용자를 급속히 넓혀 가고 있다. 오픈소스 기반으로서의 다양한 기능 확장성이 R의 강점인데 반해 규모 확장성이 미흡함으로 인해 대용량 데이터 처리에서의 성능 제약이 발생한다. 이를 보완하기 위한 확장 패키지 중 하나인 RHadoop은 R로 작성된 코드에 대해 하둡 플랫폼 기반 병렬 분산 처리를 지원하므로 데이터 분석 성능을 높일 수 있다. 본 논문에서는 인터넷을 통해 공개되는 실제 보건의료 빅데이터를 이용한 데이터 분석에서 RHadoop을 활용할 때 얻을 수 있는 성능 개선을 평가함으로써 RHadoop의 유효성을 검증한다. 본 연구를 통해 R과 RHadoop에서 국민건강보험 진료내역정보를 각각 분석한 결과 8개의 데이터 노드로 구성된 RHadoop 클러스터가 R과 비교하여 최대 8배 이상 성능을 개선시킬 수 있음을 입증하였다.

Keywords

References

  1. D. Cho, and S. Eum, "A Study on the Influence of Macroeconomic Variables of the ADF Test Method Using Public Big Data on the Real Estate Market," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 3, 2017, pp. 499-506. https://doi.org/10.13067/JKIECS.2017.12.3.499
  2. H. Rah, K. Lee, S. Jung, G. Kang, and W. Cho, "Status and compliance with standard open format of public open data in healthcare in Korea," J. of Korean Med Assoc, vol. 60, no. 6, 2017, pp. 506-513. https://doi.org/10.5124/jkma.2017.60.6.506
  3. S. Jeong, and S. Choi, "Changes in the Hospital Length of Stay and Medical Cost between before and after the Applications of the DRG payment system using Health Insurance Big Data," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 2, 2017, pp. 401-409. https://doi.org/10.13067/JKIECS.2017.12.2.401
  4. V. Prajapati, "Big data analytics with R and Hadoop", Birmingham, UK., Packt Publishing Ltd., 2013
  5. R. Ihaka, and R. Gentleman, "R: A Language for Data Analysis and Graphics," J. of Computational and Graphical Statistics, vol. 5, no. 3, 1996, pp. 299-314. https://doi.org/10.2307/1390807
  6. J. Shin, B. Jung, and D. Lim, "Big data distributed processing system using RHadoop," J. of the Korean Data & Information Science Society, vol. 26, no. 5, 2015, pp. 1155-1166. https://doi.org/10.7465/jkdi.2015.26.5.1155
  7. W. Ryu, "Usefulness of RHadoop in case of Healthcare Big Data Analysis," Proc. of conf. on Korea Information and Communication Engineering, Cheonan, Korea, Oct. 2017, pp. 115-117.