• 제목/요약/키워드: Bayesian variable selection

검색결과 46건 처리시간 0.028초

전력계통한계가격 변동성 결정요인 분석: 베이지안 변수선택 방법 (What determines the Electricity Price Volatility in Korea?)

  • 이서진;김영민
    • 자원ㆍ환경경제연구
    • /
    • 제31권3호
    • /
    • pp.393-417
    • /
    • 2022
  • 전력시장 도매가격인 전력계통한계가격(System Marginal Price, SMP)의 급등락은 발전 사업자들의 재생에너지 및 기존 신규 발전설비에 대한 투자 결정을 변경하거나 지연시켜 에너지 정책 실현에 부정적인 영향을 미칠 수 있다. 이 연구는 2016~2020년 시간별 데이터를 활용하여 우리나라 SMP 주간 실현 변동성을 측정하고 결정요인을 파악함으로써 SMP 급등락 현상에 대한 정보 제공을 목적으로 한다. 국면전환(regime-switching)을 베이지안 변수선택(Bayesian stochastic selection) 모형에 적용하여 추정한 결과, SMP 고변동·저변동 국면 모두에서 기저 발전인 석탄 및 원자력 발전과 재생에너지인 태양광 발전의 증가는 SMP 변동성을 심화시키고, 가스발전량과 LNG 가격 변화는 고변동 국면에서만 SMP 변동성을 감소시키는 것으로 나타났다. 이러한 결과는 탄소 중립이나 에너지 전환 정책에 따른 재생에너지의 점진적인 확대가 SMP 변동성을 확대할 수 있지만, 재생에너지의 간헐성을 보완하기 위한 가스발전의 증가나 탄소 중립을 위한 석탄발전 감축은 SMP 변동성 증가를 상쇄시키는 역할을 할 수 있음을 시사한다.

Bayesian Variable Selection in the Proportional Hazard Model with Application to Microarray Data

  • Lee, Kyeong-Eun;Mallick, Bani K.
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.17-23
    • /
    • 2005
  • In this paper we consider the well-known semiparametric proportional hazards models for survival analysis. These models are usually used with few covariates and many observations (subjects). But, for a typical setting of gene expression data from DNA microarray, we need to consider the case where the number of covariates p exceeds the number of samples n. For a given vector of response values which are times to event (death or censored times) and p gene expressions(covariates), we address the issue of how to reduce the dimension by selecting the significant genes. This approach enables us to estimate the survival curve when n ${\ll}$p. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. The approach creates additional flexibility by allowing the imposition of constraints, such as bounding the dimension via a prior, which in effect works as a penalty To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method. We demonstrate the use of the methodology to diffuse large B-cell lymphoma (DLBCL) complementary DNA (cDNA) data and Breast Carcinomas data.

  • PDF

A Bayesian Method for Narrowing the Scope of Variable Selection in Binary Response Logistic Regression

  • Kim, Hea-Jung;Lee, Ae-Kyung
    • 품질경영학회지
    • /
    • 제26권1호
    • /
    • pp.143-160
    • /
    • 1998
  • This article is concerned with the selection of subsets of predictor variables to be included in bulding the binary response logistic regression model. It is based on a Bayesian aproach, intended to propose and develop a procedure that uses probabilistic considerations for selecting promising subsets. This procedure reformulates the logistic regression setup in a hierarchical normal mixture model by introducing a set of hyperparameters that will be used to identify subset choices. It is done by use of the fact that cdf of logistic distribution is a, pp.oximately equivalent to that of $t_{(8)}$/.634 distribution. The a, pp.opriate posterior probability of each subset of predictor variables is obtained by the Gibbs sampler, which samples indirectly from the multinomial posterior distribution on the set of possible subset choices. Thus, in this procedure, the most promising subset of predictors can be identified as that with highest posterior probability. To highlight the merit of this procedure a couple of illustrative numerical examples are given.

  • PDF

Variable Selection in Linear Random Effects Models for Normal Data

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제27권4호
    • /
    • pp.407-420
    • /
    • 1998
  • This paper is concerned with selecting covariates to be included in building linear random effects models designed to analyze clustered response normal data. It is based on a Bayesian approach, intended to propose and develop a procedure that uses probabilistic considerations for selecting premising subsets of covariates. The approach reformulates the linear random effects model in a hierarchical normal and point mass mixture model by introducing a set of latent variables that will be used to identify subset choices. The hierarchical model is flexible to easily accommodate sign constraints in the number of regression coefficients. Utilizing Gibbs sampler, the appropriate posterior probability of each subset of covariates is obtained. Thus, In this procedure, the most promising subset of covariates can be identified as that with highest posterior probability. The procedure is illustrated through a simulation study.

  • PDF

Bayesian mixed models for longitudinal genetic data: theory, concepts, and simulation studies

  • Chung, Wonil;Cho, Youngkwang
    • Genomics & Informatics
    • /
    • 제20권1호
    • /
    • pp.8.1-8.14
    • /
    • 2022
  • Despite the success of recent genome-wide association studies investigating longitudinal traits, a large fraction of overall heritability remains unexplained. This suggests that some of the missing heritability may be accounted for by gene-gene and gene-time/environment interactions. In this paper, we develop a Bayesian variable selection method for longitudinal genetic data based on mixed models. The method jointly models the main effects and interactions of all candidate genetic variants and non-genetic factors and has higher statistical power than previous approaches. To account for the within-subject dependence structure, we propose a grid-based approach that models only one fixed-dimensional covariance matrix, which is thus applicable to data where subjects have different numbers of time points. We provide the theoretical basis of our Bayesian method and then illustrate its performance using data from the 1000 Genome Project with various simulation settings. Several simulation studies show that our multivariate method increases the statistical power compared to the corresponding univariate method and can detect gene-time/ environment interactions well. We further evaluate our method with different numbers of individuals, variants, and causal variants, as well as different trait-heritability, and conclude that our method performs reasonably well with various simulation settings.

잠재변수 모형에서의 군집효율을 이용한 변수선택 (Variable selection for latent class analysis using clustering efficiency)

  • 김성경;서병태
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.721-732
    • /
    • 2018
  • 잠재집단 모형은 다변량 범주형 자료 안에 숨겨진 집단을 찾는 매우 중요한 도구종의 하나이다. 하지만 실제 자료분석에서 너무 많은 관찰변수들을 포함시킨 모형은 모형을 복잡하게 만들고 또한 모수추정의 정확도에 영향을 주기 때문에 정보가 손실되지 않는 내에서 유용한 변수를 찾는 것은 중요한 문제이다. Dean과 Raftery (2010)은 잠재집단 모형에서의 변수선택을 위해 BIC를 이용한 Headlong search 알고리즘을 제시하였는데 본 논문에서는 이 방법을 대체할 수 있는 방법으로 적합한 모형으로부터 계산된 잠재집단에 속할 사후확률을 이용하여 변수 선택을 하는 방법을 제안하고자 한다. 이를 위하여 잠재집단 모형의 적합성을 측정할 수 있는 새로운 통계량과 이를 이용한 변수선택 알고리즘을 제시할 것이다. 또한 제안된 방법의 효율성을 모의실험과 실증자료 분석을 통해 살펴보고자 한다.

지수 생존 모형에서의 베이지안 모형 선택 (Bayesian model selection in exponential survival models)

  • 정윤식;김미숙
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.57-71
    • /
    • 2002
  • 본 논문에서는 지수생존 모형의 형태들로써 단순 지수모형, 변환 점 지수모형과 유한 혼합 지수모형 등 세 가지 모형을 소개한다. 이러한 모형들 중에서, 최적의 모형을 찾기 위하여 Gelfand와 Ghosh(1998)의 방법을 이용한 모형 선택 방법을 제안한다. 이때, 계산상의 어려움을 피하기 위하여 자료 확장 기법(Tanner와 Wong, 1987)과 깁스 샘플러(Gelfand와 Smith, 1990)를 사용하였다. 제안된 베이지안 방법을 설명하기 위하여 모의 실험 자료와Stangl의 항 우울제 자료에 적용한다. 모형 선택 방법은 사전 분포와 모형 선택 기준의 가중치에 민감하지 않다는 것을 제한된 우리의 실험으로 알 수 있었다.

무응답을 가지고 있는 범주형 자료에 대한 모형 선택 방법 (Model selection method for categorical data with non-response)

  • 윤용화;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.627-641
    • /
    • 2012
  • 본 연구는 다차원 분할표 형태로 정리된 범주형 자료가 결측치나 무응답을 가지고 있을 때 주어진 자료를 가장 잘 설명하고 예측의 정확도를 높일 수 있는 모형의 추정과 모형의 선택 문제를 다루었다. 무시할 수 없는 무응답 (non-ignorable non-response)체계하에서 최대우도 추정에서 발생할 수 있는 변방값 문제를 해결하기 위하여 계층적 베이지안 모형을 고려하였다. 또한 모형 적도를 높이기 위한 변수 조합을 찾는 모형 선택의 문제를 함께 다루었다. 베이지안 접근하에서 모형 선택의 문제를 다루기 위하여 베이즈 인자 (Bayes factor)를 모형 선택의 기준으로 이용하였다. 제시된 방법은 2004년 실시된 우리나라 국회의원 선거를 앞두고 수행된 여론조사 데이터를 이용하여 실증분석을 수행하였다. 분석결과 무시할 수 없는 무응답 체계하에서 설명변수로 투표참여여부를 이용하는 것이 가장 적합한 모형으로 판명되었다.

라플라스와 이중 파레토 벌점의 비교: LASSO와 Elastic Net (Comparison of Laplace and Double Pareto Penalty: LASSO and Elastic Net)

  • 경민정
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.975-989
    • /
    • 2014
  • 연속적인 변수 선택과 계수 추정을 동시에 활용할 수 있다는 특성 때문에 LASSO (Tibshirani, 1996)와 Elastic Net (Zou와 Hastie, 2005)은 다양한 분야에서 활발하게 사용되고 있다. 조건부 라플라스와 이중 파레토 사전분포를 적용한 공액계층모형을 표현하였고, 각각의 사전분포에 대한 완전 조건 사후분포를 도출하였다. 제안된 사전분포를 적용한 벌점회귀모형을 비교하기 위한 모의 실험을 진행하였고, 예측정확도를 판단하기 위해 아시아 국가 실패(the collapse of governments in Asia)의 실제 데이터에 제안한 모형을 적용하였다.

A Bayesian cure rate model with dispersion induced by discrete frailty

  • Cancho, Vicente G.;Zavaleta, Katherine E.C.;Macera, Marcia A.C.;Suzuki, Adriano K.;Louzada, Francisco
    • Communications for Statistical Applications and Methods
    • /
    • 제25권5호
    • /
    • pp.471-488
    • /
    • 2018
  • In this paper, we propose extending proportional hazards frailty models to allow a discrete distribution for the frailty variable. Having zero frailty can be interpreted as being immune or cured. Thus, we develop a new survival model induced by discrete frailty with zero-inflated power series distribution, which can account for overdispersion. This proposal also allows for a realistic description of non-risk individuals, since individuals cured due to intrinsic factors (immunes) are modeled by a deterministic fraction of zero-risk while those cured due to an intervention are modeled by a random fraction. We put the proposed model in a Bayesian framework and use a Markov chain Monte Carlo algorithm for the computation of posterior distribution. A simulation study is conducted to assess the proposed model and the computation algorithm. We also discuss model selection based on pseudo-Bayes factors as well as developing case influence diagnostics for the joint posterior distribution through ${\psi}-divergence$ measures. The motivating cutaneous melanoma data is analyzed for illustration purposes.