• 제목/요약/키워드: MCMC (Markov Chain Monte Carlo)

검색결과 121건 처리시간 0.031초

The inference and estimation for latent discrete outcomes with a small sample

  • Choi, Hyung;Chung, Hwan
    • Communications for Statistical Applications and Methods
    • /
    • 제23권2호
    • /
    • pp.131-146
    • /
    • 2016
  • In research on behavioral studies, significant attention has been paid to the stage-sequential process for longitudinal data. Latent class profile analysis (LCPA) is an useful method to study sequential patterns of the behavioral development by the two-step identification process: identifying a small number of latent classes at each measurement occasion and two or more homogeneous subgroups in which individuals exhibit a similar sequence of latent class membership over time. Maximum likelihood (ML) estimates for LCPA are easily obtained by expectation-maximization (EM) algorithm, and Bayesian inference can be implemented via Markov chain Monte Carlo (MCMC). However, unusual properties in the likelihood of LCPA can cause difficulties in ML and Bayesian inference as well as estimation in small samples. This article describes and addresses erratic problems that involve conventional ML and Bayesian estimates for LCPA with small samples. We argue that these problems can be alleviated with a small amount of prior input. This study evaluates the performance of likelihood and MCMC-based estimates with the proposed prior in drawing inference over repeated sampling. Our simulation shows that estimates from the proposed methods perform better than those from the conventional ML and Bayesian method.

Bayesian MCMC를 이용한 저수량 점 빈도분석: I. 사전분포의 적용성 비교 (At-site Low Flow Frequency Analysis Using Bayesian MCMC: I. Comparative study for construction of Prior distribution)

  • 김상욱;이길성;박경신
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2008년도 학술발표회 논문집
    • /
    • pp.1121-1124
    • /
    • 2008
  • 저수분석(low flow analysis)은 수자원공학에서 중요한 분야 중 하나이며, 특히 저수량 빈도분석(low flow frequency analysis)의 결과는 저수(貯水)용량의 설계, 물 수급계획, 오염원의 배치 및 관개와 생태계의 보존을 위한 수량과 수질의 관리에 중요하게 사용된다. 그러므로 본 연구에서는 저수량 빈도분석을 위한 점빈도분석을 수행하였으며, 특히 빈도분석에 있어서의 불확실성을 탐색하기 위하여 Bayesian 방법을 적용하고 그 결과를 기존에 사용되던 불확실성 탐색방법과 비교하였다. 본 논문의 I편에서는 Bayesian 방법 중 사전분포(prior distribution)와 우도함수(likelihood function)의 복잡성에 상관없이 계산이 가능한 Bayesian MCMC(Bayesian Markov Chain Monte Carlo) 방법과 Metropolis-Hastings 알고리즘을 사용하기 위한 여러과정의 이론적 배경과 Bayesian 방법에서 가장 중요한 요소인 사전분포를 구축하고 이를 비교 및 평가하였다. 고려된 사전분포는 자료에 기반하지 않은 사전분포와 자료에 기반한 사전분포로써 두 사전분포를 이용하여 Metropolis-Hastings 알고리즘을 수행하고 그 결과를 비교하여 저수량 빈도분석에 합리적인 사전분포를 선정하였다. 또한 알고리즘의 수행과정에서 필요한 제안분포(proposal distribution)를 적용하여 그에 따른 알고리즘의 효율성을 채택률(acceptance rate)을 산정하여 검증해 보았다. 사전분포의 분석 결과, 자료에 기반한 사전분포가 자료에 기반하지 않은 사전분포보다 정확성 및 불확실성의 표현에 있어서 우수한 결과를 제시하는 것을 확인할 수 있었고, 채택률을 이용한 알고리즘의 효용성 역시 기존 연구자들이 제시하였던 만족스러운 범위를 가지는 것을 알 수 있었다. 최종적으로 선정된 사전분포는 본 연구의 II편에서 Bayesian MCMC 방법의 사전분포로 이용되었으며, 그 결과를 기존 불확실성의 추정방법의 하나인 2차 근사식을 이용한 최우추정(maximum likelihood estimation)방법의 결과와 비교하였다.

  • PDF

가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용 (Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data)

  • 손동현;황범석
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 다항 프로빗 모형은 다중 분류와 선택 모형에서 흔히 사용하는 모형이다. 다항 프로빗 모형을 추정하기 위해 일반적으로 널리 사용하는 베이지안 접근법인 마르코프 연쇄 몬테카를로(MCMC) 방법은 계산 복잡도가 매우 높다는 문제점을 가지고 있다. 반면, 변분 베이즈 방법은 MCMC 방법보다 계산 복잡도는 낮으면서도 분류 성능적인 면에서 큰 차이가 나지 않아 더 효율적인 방법으로 알려져 있다. 본 연구에서는 가우시안 과정에 기반한 다항 프로빗 모형을 설명하고 해당 모형에 적용할 수 있는 변분 베이지안 근사법을 알아보고자 한다. 그리고 UCI에서 제공되는 쥐 단백질 발현 데이터에 가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형을 적용하여 그 성능을 확인하고 나이브 베이즈, K-최근접 이웃법, 서포트 벡터 머신 분류기의 성능과 비교한다.

Bayesian MCMC를 이용한 저수량 점 빈도분석: II. 적용과 비교분석 (At-site Low Flow Frequency Analysis Using Bayesian MCMC: II. Application and Comparative Studies)

  • 김상욱;이길성
    • 한국수자원학회논문집
    • /
    • 제41권1호
    • /
    • pp.49-63
    • /
    • 2008
  • 본 연구에서는 Bayesian MCMC 방법과 2차 근사식을 이용한 최우추정(Maximum Likelihood Estimation, MLE)방법 방법을 이용하여 낙동강 유역의 본류지점인 낙동, 왜관, 고령교, 진동지점에 대한 점 빈도분석을 수행하고 그 결과로써 불확실성을 포함한 빈도곡선을 작성하였다. 통계적 실험을 통한 두 가지 추정방법의 분석을 위하여 먼저 자료의 길이가 100인 8개의 합성 유량자료 셋을 생성하여 비교 연구를 수행하였으며, 이를 자료길이 36인 실측 유량 자료의 추정결과와 비교하였다. Bayesian MCMC 방법에 의한 평균값과 2차 근사식을 이용한 취우추정방법에 의한 모드에서의 2모수 Weibull 분포의 모수 추정값은 비슷한 결과를 보였으나, 불확실성을 나타내는 하한값과 상한값의 차이는 Bayesian MCMC 방법이 2차 근사식을 이용한 취우추정방법보다 불확실성을 감소시켜 나타내는 것을 알 수 있었다. 또한 실측 유량자료를 이용한 결과, 2차 근사식을 이용한 취우추정방법의 경우 자료의 길이가 감소됨에 따라 불확실성의 범위가 합성유량자료를 사용한 경우에 비해 상대적으로 증가되지만, Bayesian MCMC 방법의 경우에는 자료의 길이에 대한 영향이 거의 없다는 결론을 얻을 수 있었다. 그러므로 저수량 빈도분석을 수행하기 위해 충분한 자료를 확보할 수 없는 국내의 상황을 감안할 때, 위와 같은 결론으로부터 Bayesian MCMC 방법이 불확실성을 표현하는데 있어서 2차 근사식을 이용한 최우추정방법에 비해 합리적일 수 있다는 결론을 얻을 수 있었다.

A hidden Markov model for long term drought forecasting in South Korea

  • Chen, Si;Shin, Ji-Yae;Kim, Tae-Woong
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.225-225
    • /
    • 2015
  • Drought events usually evolve slowly in time and their impacts generally span a long period of time. This indicates that the sequence of drought is not completely random. The Hidden Markov Model (HMM) is a probabilistic model used to represent dependences between invisible hidden states which finally result in observations. Drought characteristics are dependent on the underlying generating mechanism, which can be well modelled by the HMM. This study employed a HMM with Gaussian emissions to fit the Standardized Precipitation Index (SPI) series and make multi-step prediction to check the drought characteristics in the future. To estimate the parameters of the HMM, we employed a Bayesian model computed via Markov Chain Monte Carlo (MCMC). Since the true number of hidden states is unknown, we fit the model with varying number of hidden states and used reversible jump to allow for transdimensional moves between models with different numbers of states. We applied the HMM to several stations SPI data in South Korea. The monthly SPI data from January 1973 to December 2012 was divided into two parts, the first 30-year SPI data (January 1973 to December 2002) was used for model calibration and the last 10-year SPI data (January 2003 to December 2012) for model validation. All the SPI data was preprocessed through the wavelet denoising and applied as the visible output in the HMM. Different lead time (T= 1, 3, 6, 12 months) forecasting performances were compared with conventional forecasting techniques (e.g., ANN and ARMA). Based on statistical evaluation performance, the HMM exhibited significant preferable results compared to conventional models with much larger forecasting skill score (about 0.3-0.6) and lower Root Mean Square Error (RMSE) values (about 0.5-0.9).

  • PDF

Gibbs알고리즘을 이용한 저축률의 정규분포혼합 추정 (Estimation of the Mixture of Normals of Saving Rate Using Gibbs Algorithm)

  • 윤종인
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.219-224
    • /
    • 2015
  • 본 연구는 우리나라 가계저축률의 정규분포혼합을 추정한다. 2014년 마이크로데이터인 MDSS를 이용하였고 추정방법으로는 깁스알고리즘을 이용하였다. 실증분석결과의 주요내용은 다음과 같다. 첫째, 정규분포혼합을 추정하기 위한 방법으로 깁스알고리즘은 잘 작동하였다. 즉 주요 모수추정치는 모두 정상적 분포를 갖는 것으로 나타났다. 둘째 저축률 자료는 적어도 2개의 성분, 즉 저축률이 평균 0%인 성분과 평균 29.4%인 성분으로 이루어져 있는 것으로 보인다. 즉 우리나라의 가계는 고저축률 집단과 저저축률 집단으로 나누어질 수 있다는 뜻이다. 셋째 정규분포혼합모형 자체는 어떤 가계가 첫째 성분 또는 둘째 성분에 속하는가를 설명할 수 없다. 이에 본 연구는 추가적인 분석을 수행하였지만 소득수준과 가구주 연령은 이에 대한 설명력을 지니지 못하는 것으로 판단된다.

Bayesian estimation of kinematic parameters of disk galaxies in large HI galaxy surveys

  • Oh, Se-Heon;Staveley-Smith, Lister
    • 천문학회보
    • /
    • 제41권2호
    • /
    • pp.62.2-62.2
    • /
    • 2016
  • We present a newly developed algorithm based on a Bayesian method for 2D tilted-ring analysis of disk galaxies which operates on velocity fields. Compared to the conventional ones based on a chi-squared minimisation procedure, this new Bayesian-based algorithm less suffers from local minima of the model parameters even with high multi-modality of their posterior distributions. Moreover, the Bayesian analysis implemented via Markov Chain Monte Carlo (MCMC) sampling only requires broad ranges of posterior distributions of the parameters, which makes the fitting procedure fully automated. This feature is essential for performing kinematic analysis of an unprecedented number of resolved galaxies from the upcoming Square Kilometre Array (SKA) pathfinders' galaxy surveys. A standalone code, the so-called '2D Bayesian Automated Tilted-ring fitter' (2DBAT) that implements the Bayesian fits of 2D tilted-ring models is developed for deriving rotation curves of galaxies that are at least marginally resolved (> 3 beams across the semi-major axis) and moderately inclined (20 < i < 70 degree). The main layout of 2DBAT and its performance test are discussed using sample galaxies from Australia Telescope Compact Array (ATCA) observations as well as artificial data cubes built based on representative rotation curves of intermediate-mass and massive spiral galaxies.

  • PDF

Performance assessment of bridges using short-period structural health monitoring system: Sungsu bridge case study

  • Kaloop, Mosbeh R.;Elsharawy, Mohamed;Abdelwahed, Basem;Hu, Jong Wan;Kim, Dongwook
    • Smart Structures and Systems
    • /
    • 제26권5호
    • /
    • pp.667-680
    • /
    • 2020
  • This study aims at reporting a systematic procedure for evaluating the static and dynamic structural performance of steel bridges based on a short-period structural health monitoring measurement. Sungsu bridge located in Korea is considered as a case study presenting the most recent tests carried out to examine the bridge condition. Short-period measurements of Structural Health Monitoring (SHM) system were used during the bridge testing phase. A novel symmetry index is introduced using statistical analyses of deflection and strain measurements. Frequency Domain Decomposition (FDD) is implemented to the strain measurements to estimate the bridge mode shapes and damping ratios. Furthermore, Markov Chain Monte Carlo (MCMC) is also implemented to examine the reliability of bridge performance while ambient design trucks are in static or moving at different speeds. Strain, displacement and acceleration were measured at selected locations on the bridge. The results show that the symmetry index can be an efficient and useful measure in assessing the steel bridge performance. The results from the used method reveal that the performance of the Sungsu bridge is safe under operational conditions.

외부기상인자를 고려한 낙동강유역 계절강수량 단기예측모형 (Seasonal rainfall short-term forecasting model considering climate indices)

  • 이정주;권현한;황규남;전시영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.401-401
    • /
    • 2011
  • 본 연구는 Bayesian MCMC(Markov Chain Monte Carlo)를 이용한 비정상성 빈도해석 모형에 외부기상인자를 결합하여 계절단위의 강수량을 예측하는데 목적을 두고 있으며, 그 중에서도 홍수 위험도와 관련하여 유용하게 이용될 수 있는 여름강수량을 예측 대상으로 하였다. 비정상성 빈도해석 모형을 기반으로 외부 기상인자에 의한 변동성을 고려하기 위해서는 대상 수문량을 한정할 필요가 있으며 극대치강수량과 연관성이 높은 장마전선, 태풍 등의 기상인자는 공간적 변동성 및 복합적인 특성들로 인해 예측인자를 구성하는 기상인자로 사용하기에는 무리가 있다. 따라서 본 연구에서는 계절단위의 수문량으로 여름강수량을 대상으로 하였으며, 이에 영향을 미치는 외부 기상인자로서 SST(sea surface temperature)와 OLR(outgoing longwave radiation)을 도입하였으며, 낙동강유역 여름강수량과의 공간 상관성이 높은 지역의 이전 겨울 SST와 6월 OLR을 예측인자로 활용한 7~9월 여름강수량 예측모형을 구성하였다. 모형의 검증은 결과를 알고 있는 2010년 여름 강수량을 대상으로 수행하였으며, 모형의 적용은 현재시점에서 관측된 2010년 겨울 SST와, 과거 관측 자료를 토대로 가정된 2011년 6월 OLR을 이용하여 2011년 여름 강수량을 예측하였다. 결과적으로 모형 매개변수들의 사후분포로부터 불확실성 구간을 포함한 예측결과를 구할 수 있었다.

  • PDF

Bayesian Variable Selection in the Proportional Hazard Model with Application to Microarray Data

  • Lee, Kyeong-Eun;Mallick, Bani K.
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.17-23
    • /
    • 2005
  • In this paper we consider the well-known semiparametric proportional hazards models for survival analysis. These models are usually used with few covariates and many observations (subjects). But, for a typical setting of gene expression data from DNA microarray, we need to consider the case where the number of covariates p exceeds the number of samples n. For a given vector of response values which are times to event (death or censored times) and p gene expressions(covariates), we address the issue of how to reduce the dimension by selecting the significant genes. This approach enables us to estimate the survival curve when n ${\ll}$p. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. The approach creates additional flexibility by allowing the imposition of constraints, such as bounding the dimension via a prior, which in effect works as a penalty To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method. We demonstrate the use of the methodology to diffuse large B-cell lymphoma (DLBCL) complementary DNA (cDNA) data and Breast Carcinomas data.

  • PDF