• Title/Summary/Keyword: 선택변수모형

Search Result 610, Processing Time 0.026 seconds

내구소비재 보유함수의 추정: 이진수 종속변수를 이용한 회귀분석

  • Yoon, Suk Bum;Lee, Hoe Kyung
    • Journal of the Korean Statistical Society
    • /
    • v.6 no.2
    • /
    • pp.117-154
    • /
    • 1977
  • 본논문에서는 첫째로 단일방정식 모형에서 종속변수가 양자택일(binary choice)의 이산확률변수일 때 이러한 이진적 종속변수(binary dependent variable)의 변동을 설명하는데 사용되는 몇 가지 모형을 소개하고 각각의 표기 및 추정방법, 추정량의 성질, 예측 및 검정 문제 등에 관하여 비교 서술하고자 한다. 둘째, 종속변수가 이산과 연속의 혼합형태일 때 앞에 소개된 모형이 어떻게 적용될 수 있는가를 살펴보며, 셋째, 선택대상 및 종속변수의 수가 증가하여 일반화된 선다형모형(multiple choice model)의 경우, 표기 및 추정방법을 단일방정식 기법을 이용하여 추가로 총람하고자 한다. 넷째, 본논문에서는 또한 내구소비재 구입에 관한 조사자료를 이용하여 실제 많이 사용되는 몇 개의 모형을 선택하여 적용하고 각각의 예측력을 분석함으로써 각 모형을 비교 검토하는데 목적이 있다.

  • PDF

Multivariate quantile regression tree (다변량 분위수 회귀나무 모형에 대한 연구)

  • Kim, Jaeoh;Cho, HyungJun;Bang, Sungwan
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.3
    • /
    • pp.533-545
    • /
    • 2017
  • Quantile regression models provide a variety of useful statistical information by estimating the conditional quantile function of the response variable. However, the traditional linear quantile regression model can lead to the distorted and incorrect results when analysing real data having a nonlinear relationship between the explanatory variables and the response variables. Furthermore, as the complexity of the data increases, it is required to analyse multiple response variables simultaneously with more sophisticated interpretations. For such reasons, we propose a multivariate quantile regression tree model. In this paper, a new split variable selection algorithm is suggested for a multivariate regression tree model. This algorithm can select the split variable more accurately than the previous method without significant selection bias. We investigate the performance of our proposed method with both simulation and real data studies.

Valuing Recreational Benefits of Dam Lakes with a Combined Model of Revealed and Stated Preference Methods (댐호수의 특성별 휴양가치 분석 : 현시선호모형, 진술선호모형 및 그 혼합모형)

  • Kwon, Oh-Sang
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.247-253
    • /
    • 2006
  • 본고는 주요 댐호수의 휴양가치를 댐호수의 특성별로 도출하고자 실제로 댐호수를 선택한 행위를 분석하고, 아울러 선택실험을 통해 가상적으로 설정된 특성을 가진 댐을 방문할지를 선택하도록 하여 그 결과를 분석하기도 하였다. 또한 현시선호된 선택과 진술선호선택을 모두 결합하여 분석하는 기법도 사용하였다. 분석결과 진술선호자료와 현시선호자료간의 이질성이 상당한 것으로 나타났으나 두 자료를 결합함으로써 모든 특성변수들이 만족도에 미치는 영향이 직관과 부합되도록 도출되었다. 댐호수의 수량과 수질 모두가 레크리에이션 가치에 영향을 미치는 것으로 나타났으나, 특히 수질개선의 편익 증가효과가 매우 크다는 것이 확인되었다. 그 외에도 홍보관, 주변 숙박시설 및 음식점, 인근 휴양지와의 연계성 등도 휴양가치 증가에 영향을 미치는 주요 변수로 파악되었다.

  • PDF

The correlation and regression analyses based on variable selection for the university evaluation index (대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정)

  • Song, Pil-Jun;Kim, Jong-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.3
    • /
    • pp.457-465
    • /
    • 2012
  • The purpose of this study is to analyze the association between indicators and to find statistical models based on important indicators at 'College Notifier' in Korea Council for University Education. First, Pearson correlation coefficients are used to find statistically significant correlations. By variable selection method, the important indicators are selected and their coefficients are estimated. As variable selection method, backward and stepwise methods are employed.

Analysis of multi-center bladder cancer survival data using variable-selection method of multi-level frailty models (다수준 프레일티모형 변수선택법을 이용한 다기관 방광암 생존자료분석)

  • Kim, Bohyeon;Ha, Il Do;Lee, Donghwan
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.2
    • /
    • pp.499-510
    • /
    • 2016
  • It is very important to select relevant variables in regression models for survival analysis. In this paper, we introduce a penalized variable-selection procedure in multi-level frailty models based on the "frailtyHL" R package (Ha et al., 2012). Here, the estimation procedure of models is based on the penalized hierarchical likelihood, and three penalty functions (LASSO, SCAD and HL) are considered. The proposed methods are illustrated with multi-country/multi-center bladder cancer survival data from the EORTC in Belgium. We compare the results of three variable-selection methods and discuss their advantages and disadvantages. In particular, the results of data analysis showed that the SCAD and HL methods select well important variables than in the LASSO method.

A study on bias effect of LASSO regression for model selection criteria (모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구)

  • Yu, Donghyeon
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.4
    • /
    • pp.643-656
    • /
    • 2016
  • High dimensional data are frequently encountered in various fields where the number of variables is greater than the number of samples. It is usually necessary to select variables to estimate regression coefficients and avoid overfitting in high dimensional data. A penalized regression model simultaneously obtains variable selection and estimation of coefficients which makes them frequently used for high dimensional data. However, the penalized regression model also needs to select the optimal model by choosing a tuning parameter based on the model selection criterion. This study deals with the bias effect of LASSO regression for model selection criteria. We numerically describes the bias effect to the model selection criteria and apply the proposed correction to the identification of biomarkers for lung cancer based on gene expression data.

A Multivariate Analysis of Korean Professional Players Salary (한국 프로스포츠 선수들의 연봉에 대한 다변량적 분석)

  • Song, Jong-Woo
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.3
    • /
    • pp.441-453
    • /
    • 2008
  • We analyzed Korean professional basketball and baseball players salary under the assumption that it depends on the personal records and contribution to the team in the previous year. We extensively used data visualization tools to check the relationship among the variables, to find outliers and to do model diagnostics. We used multiple linear regression and regression tree to fit the model and used cross-validation to find an optimal model. We check the relationship between variables carefully and chose a set of variables for the stepwise regression instead of using all variables. We found that points per game, number of assists, number of free throw successes, career are important variables for the basketball players. For the baseball pitchers, career, number of strike-outs per 9 innings, ERA, number of homeruns are important variables. For the baseball hitters, career, number of hits, FA are important variables.

Bayesian Variable Selection in Linear Regression Models with Inequality Constraints on the Coefficients (제한조건이 있는 선형회귀 모형에서의 베이지안 변수선택)

  • 오만숙
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.1
    • /
    • pp.73-84
    • /
    • 2002
  • Linear regression models with inequality constraints on the coefficients are frequently used in economic models due to sign or order constraints on the coefficients. In this paper, we propose a Bayesian approach to selecting significant explanatory variables in linear regression models with inequality constraints on the coefficients. Bayesian variable selection requires computation of posterior probability of each candidate model. We propose a method which computes all the necessary posterior model probabilities simultaneously. In specific, we obtain posterior samples form the most general model via Gibbs sampling algorithm (Gelfand and Smith, 1990) and compute the posterior probabilities by using the samples. A real example is given to illustrate the method.

공항 접근 교통수단선택 효용함수의 매개변수 추정 및 민감도 분석에 관한 연구

  • 김지홍;전경수
    • Proceedings of the KOR-KST Conference
    • /
    • 1998.10b
    • /
    • pp.261-261
    • /
    • 1998
  • 교통계획의 목적은 교통체계를 분석하여 교통과 활동간의 상호작용을 효율화시켜 도시 및 지역사회의 목표를 달성하는데 있으며, 합리적인 교통계획을 수립하여 한정된 투자재원을 효율적으로 배분하기 위해서는 교통수요에 대한 합리적 접근이 필요하다. 교통수요예측의 접근방법은 미시적인 개별적 접근방법과 거시적인 집단적 접근방법으로 구분되며, 다시 모형화 기법이 결정적인가 확률적인가에 따라 개별결정적, 개별활률적, 그리고 집단결정적, 집단확률적 모형의 4가지로 구분될 수 있다. 이 중에서 일반적으로 관심의 대상이 되는 2가지 형태는 집단결정적, 개발확률적 모형이다. 집단결정적모형은 전통적 교통수요예측모형에 해당되며, 개별확률적모형은 1970년대 Mc Fadden을 시작으로 Ben-Akiva, Manheim을 중심으로 한 소비자 행동선택 이론에 근거한 개별행태모형이 이에 해당된다. 개별행태모형은 개개인의 통행행태를 다른 모든 조건이 동일할 때 개개인은 비용의 최소화를 추구하고, 비용과 관련한 통행행태는 거시적 수준에서의 주어진 제약 조건과 관계가 있으며, 의사결정은 확률분포에 의해서 결정되는 효용원칙(Efficiency Principle)에 입각하여 해석한다. 도시내와 도시간, 취업자와 비취업자, 출퇴근 시, 목적별 등의 여러 가지 통행에 있어서 다양한 변수들을 사용하여 교통수단 선택모형의 파라메카 값을 추정하고 통행패턴을 분석해 왔다. 본 논문에서는 개별행태모형인 로짓모형 중에서 집단다항로짓모형을 이용하여 여러 통행 중 공항시설의 접근에 필요한 교통수단 효용함수의 파라메타 값 추정 시, 일반적으로 사용되는 통행시간, 통행비용이라는 변수를 공통으로 두고, 대중교통의 경우에만 해당하는 환승이라는 특정대안변수(Specific alternative variable)를 첨가하여 그것이 수단선택에 미치는 영향을 분석한다. 또한, 대중교통의 속성을 가지고 있는 지하철과 버스를 하나의 대안으로 묶어서 효용함수를 구한 다음 다시 승용차, 택시, 대중교통을 독립된 대안으로 두고 모형을 정립하는 NESTED LOGIT모형으로 파라메타를 추정하여 대중교통의 효용에 관해 분석·비교하였다. 본 논문에 이용된 자료는 공항을 이용하는 이용객들을 대상으로 직접 설문·면접조사한 자료이며 대상 교통수단은 승용차, 택시, 지하철, 버스로 설정하였다.

  • PDF

Penalized variable selection in mean-variance accelerated failure time models (평균-분산 가속화 실패시간 모형에서 벌점화 변수선택)

  • Kwon, Ji Hoon;Ha, Il Do
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.3
    • /
    • pp.411-425
    • /
    • 2021
  • Accelerated failure time (AFT) model represents a linear relationship between the log-survival time and covariates. We are interested in the inference of covariate's effect affecting the variation of survival times in the AFT model. Thus, we need to model the variance as well as the mean of survival times. We call the resulting model mean and variance AFT (MV-AFT) model. In this paper, we propose a variable selection procedure of regression parameters of mean and variance in MV-AFT model using penalized likelihood function. For the variable selection, we study four penalty functions, i.e. least absolute shrinkage and selection operator (LASSO), adaptive lasso (ALASSO), smoothly clipped absolute deviation (SCAD) and hierarchical likelihood (HL). With this procedure we can select important covariates and estimate the regression parameters at the same time. The performance of the proposed method is evaluated using simulation studies. The proposed method is illustrated with a clinical example dataset.