• 제목/요약/키워드: R statistical package

검색결과 137건 처리시간 0.024초

Apache Spark를 활용한 대용량 데이터의 처리 (Processing large-scale data with Apache Spark)

  • 고세윤;원중호
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1077-1094
    • /
    • 2016
  • 아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵 리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

Using R Software for Reliability Data Analysis

  • Shaffer, Leslie B.;Young, Timothy M.;Guess, Frank M.;Bensmail, Halima;Leon, Ramon V.
    • International Journal of Reliability and Applications
    • /
    • 제9권1호
    • /
    • pp.53-70
    • /
    • 2008
  • In this paper, we discuss the plethora of uses for the software package R, and focus specifically on its helpful applications in reliability data analyses. Examples are presented; including the R coding protocol, R code, and plots for various statistical as well as reliability analyses. We explore Kaplan-Meier estimates and maximum likelihood estimation for distributions including the Weibull. Finally, we discuss future applications of R, and usages of quantile regression in reliability.

  • PDF

R을 이용한 구조방정식모델링: 분석절차 및 방법 (Structural Equation Modeling Using R: Analysis Procedure and Method)

  • 곽기영
    • 지식경영연구
    • /
    • 제20권1호
    • /
    • pp.1-26
    • /
    • 2019
  • This tutorial introduces procedures and methods for performing structural equation modeling using R. For this, we present the whole process of analyzing the structural equations model from the confirmatory factor analysis to the path diagram generation using the lavaan package, which is relatively well evaluated among the R packages supporting the structural equation modeling, together with the R program codes. Considering that research applying structural equation modeling techniques is the mainstream in a variety of social sciences, including business administration, and that there is growing interest in open source R, this tutorial focuses on researchers who are looking for alternatives to traditional commercial statistical packages and is expected that it will be a useful guidebook for them.

R을 이용한 공분산 기반 구조방정식 모델링 튜토리얼: Lavaan 패키지를 중심으로 (A Tutorial on Covariance-based Structural Equation Modeling using R: focused on "lavaan" Package)

  • 윤철호;최광돈
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.121-133
    • /
    • 2015
  • 본 튜토리얼은 R을 이용하여 공분산 기반의 구조방정식모델링을 수행하는 방법을 제시하고 있다. 이를 위해 본 튜토리얼에서는 기존 연구들에 대한 리뷰를 통해 공분산 기반의 구조방정식모델링을 위한 기준들을 정의하고, 하나의 예시 연구모형을 제시하여 공분산 기반의 구조방정식모델링을 지원하는 R 패키지인 "lavaan"을 이용하여 이 예시 모형을 분석하는 것을 보여준다. 결과물로 본 튜토리얼에서는 예시모형을 대상으로 한 R을 이용한 공분산 기반의 구조방정식모델링 기법과 실습 스크립트가 제시되었다. 본 튜토리얼은 공분산 기반의 구조방정식모델링을 처음 접하는 연구자들에게는 연구모형을 구조방정식 모델링으로 분석하는데 유용한 가이드가 될 것이며, 이미 공분산 기반의 구조방정식모델링에 익숙한 연구자들에게는 R을 이용한 새로운 공분산 기반의 구조방정식모델링 분석기법 제시를 통하여 R이라는 통합된 통계 소프트웨어 운영환경에서 심도 있는 연구를 위한 기반 지식을 제공할 것이다.

직무만족(職務滿足)과 관련(關聯) 변인(變人)에 관한 연구(硏究) (A Study on the Job Satisfaction and It's related Variables)

  • 최석순
    • 대한치과기공학회지
    • /
    • 제13권1호
    • /
    • pp.99-122
    • /
    • 1991
  • This study was conducted to investigate the job satisfaction of the dental technicians and evalate the relationship between it’s scores and certain variables. One hundred eighty dental technicians were sampled from 300 among the 2552 dental technicians by wide distribution method, in September 1990. Data were collected by administering the instrument, the researcher developed for measuring the independent and dependent variables. The statistical methods utilized in this study were one-way analysis of variance, correlation and multiple regression analysis. The data were analyzed by SPSS(Statistical Package for Social Science), utilizing PC. The statistical significance was tested at 0.05 level. The major findings of the study were as follows : 1. The job satisfaction measuring instrument, the researcher developed, could measured the job satisfaction of dental technicians. The Maximum score of the instrument was 125, the highest score of dental technicians was 106, the lowest score was obtained 38, the mean score was 72.228 and standard deviation was 12.804. 2. The personal variables of dental technicians were related with the job satisfaction scores. The job satisfaction scores were positively correlated, at 0.01 level, with the scores of age(r=0.379), year(r=0.218), aptitude(r=0.415), marry(r=0.202), income(r=0.381), career(r=0.316). 3. The family variables scores of dental technicians were not correlated with the job satisfaction scores. 4. The personal characteristics of dental technicians were related with the job satisfaction. The job satisfaction score were positively correlated beyond the significant level, with the cheerfulness scores(r=0.398) and stability scores(r=0.224). 5. The job-related variables of the dental technicians were related with the job satisfaction scores. The correlation coefficient between job satisfaction scores and turnover scores was r=0.23, and quantity scores was r=0.300.

  • PDF

TRAPR: R Package for Statistical Analysis and Visualization of RNA-Seq Data

  • Lim, Jae Hyun;Lee, Soo Youn;Kim, Ju Han
    • Genomics & Informatics
    • /
    • 제15권1호
    • /
    • pp.51-53
    • /
    • 2017
  • High-throughput transcriptome sequencing, also known as RNA sequencing (RNA-Seq), is a standard technology for measuring gene expression with unprecedented accuracy. Numerous bioconductor packages have been developed for the statistical analysis of RNA-Seq data. However, these tools focus on specific aspects of the data analysis pipeline, and are difficult to appropriately integrate with one another due to their disparate data structures and processing methods. They also lack visualization methods to confirm the integrity of the data and the process. In this paper, we propose an R-based RNA-Seq analysis pipeline called TRAPR, an integrated tool that facilitates the statistical analysis and visualization of RNA-Seq expression data. TRAPR provides various functions for data management, the filtering of low-quality data, normalization, transformation, statistical analysis, data visualization, and result visualization that allow researchers to build customized analysis pipelines.

단변량 및 다변량 함수 데이터에 대한 분산분석의 활용 (Application of functional ANOVA and functional MANOVA)

  • 김미정
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.579-591
    • /
    • 2022
  • 함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.

중.고등학교 확률과 통계영역 교육에서의 R Commander의 활용 (An Application of R Commander on Probability and Statistics Education in Middle and High School Mathematics)

  • 장대흥
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제21권3호
    • /
    • pp.541-557
    • /
    • 2007
  • 장대흥(2007a, b)에서는 R 패키지에 대한 전반적인 설명과 응용에 대하여 언급하였다. 본 연구에서는 제 7차 수학과 교육과정 내의 확률 및 통계영역 목표와 내용을 중심으로 하고 제 7차 수학과 교육과정에 따라 집필된 중 고등학교 수학교과서들의 확률 및 통계단원을 참고로 하여 R Cmmmander를 구체적으로 수업에 어떻게 적용할 수 있는 지를 제안하여 보고자 한다.

  • PDF

패널자료를 이용한 제약산업의 연구개발투자 결정요인분석: 외국인투자자와 기관투자가를 중심으로 (Analysis of the Determinants of Research and Development in the Pharmaceutical Industry Using Panel Study Focused Foreign and Institutional Investors)

  • 이문재;최만규
    • 보건의료산업학회지
    • /
    • 제9권3호
    • /
    • pp.247-254
    • /
    • 2015
  • Objectives : The aim of this study was to analyze the influence of foreign and institutional investors in the pharmaceutical industry on R&D investments. Methods : The empirical analysis was done for the years 2009 to 2013 which examined the period after the influence of the financial crisis. Financial statements and comments in general and internal transactions were extracted from the TS-2000 of the Korea Listed Company Association. STATA 12.0 was used as the statistical package for the panel analysis. Results : The results show that the shareholding ratio of foreigner investors turned out to have a statistically significant influence on R&D investment. No statistical significance was found in the shareholding ratio of institutional investors. Conclusions : The findings of this study, which indicate that a higher shareholding ratio of foreigner investors leads to greater R&D investment, indicate that foreign investors directly or indirectly impose pressure on a manager to make R&D investments for the long-term.

R를 활용한 인구변동요인 산정과 인구추계 시스템 개발 (Development of system of Population projection and driving variation on demography for Korea using R)

  • 오진호
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.421-437
    • /
    • 2020
  • 본 논문은 최근에 널리 사용되고 있는 R 프로그램으로 출산율, 사망률, 국제이동률을 예측하고 이들 결과를 Leslie 행렬에 대입해 인구추계 산출하는 방법을 소개한다. 특히 Kaneko (2003)가 제안한 출산율의 일반화로그감마모형, Li 등 (2013)의 사망률 LC-ER 모형, Ramsay와 Silverman (2005)가 제안한 국제이동률의 함수적데이터모형을 시현할 수 있도록 하였다. 최근 R로 구현된 대표적인 인구추계 패키지로 demography, bayesPop가 소개되고 있으나, 이는 Human Mortality Database (HMD), Human Fertility Database (HFD)에 업로드된 자료에 한에서만 분석이 가능하고 기타 데이터를 적용하기 위해서는 자료 변경과 수정이 요구된다. 특히 우리나라의 경우 HMD에 단기 간의 자료로만 제공되어 있어 이 패키기를 적용하기에는 한계점이 있다. 이에 본 논문은 이런 실정과 한국의 저출산, 고령화, 내국인, 외국인 국제이동률 상이패턴을 반영할 수 있는 R 프로그램을 소개하고, 2117년까지의 인구추계를 도출하였다.