• 제목/요약/키워드: Markov Chain Monte Carlo Method

검색결과 149건 처리시간 0.031초

가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용 (Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data)

  • 손동현;황범석
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 다항 프로빗 모형은 다중 분류와 선택 모형에서 흔히 사용하는 모형이다. 다항 프로빗 모형을 추정하기 위해 일반적으로 널리 사용하는 베이지안 접근법인 마르코프 연쇄 몬테카를로(MCMC) 방법은 계산 복잡도가 매우 높다는 문제점을 가지고 있다. 반면, 변분 베이즈 방법은 MCMC 방법보다 계산 복잡도는 낮으면서도 분류 성능적인 면에서 큰 차이가 나지 않아 더 효율적인 방법으로 알려져 있다. 본 연구에서는 가우시안 과정에 기반한 다항 프로빗 모형을 설명하고 해당 모형에 적용할 수 있는 변분 베이지안 근사법을 알아보고자 한다. 그리고 UCI에서 제공되는 쥐 단백질 발현 데이터에 가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형을 적용하여 그 성능을 확인하고 나이브 베이즈, K-최근접 이웃법, 서포트 벡터 머신 분류기의 성능과 비교한다.

Rare Disaster Events, Growth Volatility, and Financial Liberalization: International Evidence

  • Bongseok Choi
    • Journal of Korea Trade
    • /
    • 제27권2호
    • /
    • pp.96-114
    • /
    • 2023
  • Purpose - This paper elucidates a nexus between the occurrence of rare disaster events and the volatility of economic growth by distinguishing the likelihood of rare events from stochastic volatility. We provide new empirical facts based on a quarterly time series. In particular, we focus on the role of financial liberalization in spreading the economic crisis in developing countries. Design/methodology - We use quarterly data on consumption expenditure (real per capita consumption) from 44 countries, including advanced and developing countries, ending in the fourth quarter of 2020. We estimate the likelihood of rare event occurrences and stochastic volatility for countries using the Bayesian Markov chain Monte Carlo (MCMC) method developed by Barro and Jin (2021). We present our estimation results for the relationship between rare disaster events, stochastic volatility, and growth volatility. Findings - We find the global common disaster event, the COVID-19 pandemic, and thirteen country-specific disaster events. Consumption falls by about 7% on average in the first quarter of a disaster and by 4% in the long run. The occurrence of rare disaster events and the volatility of gross domestic product (GDP) growth are positively correlated (4.8%), whereas the rare events and GDP growth rate are negatively correlated (-12.1%). In particular, financial liberalization has played an important role in exacerbating the adverse impact of both rare disasters and financial market instability on growth volatility. Several case studies, including the case of South Korea, provide insights into the cause of major financial crises in small open developing countries, including the Asian currency crisis of 1998. Originality/value - This paper presents new empirical facts on the relationship between the occurrence of rare disaster events (or stochastic volatility) and growth volatility. Increasing data frequency allows for greater accuracy in assessing a country's specific risk. Our findings suggest that financial market and institutional stability can be vital for buffering against rare disaster shocks. It is necessary to preemptively strengthen the foundation for financial stability in developing countries and increase the quality of the information provided to markets.

Genetic Contribution of Indigenous Yakutian Cattle to Two Hybrid Populations, Revealed by Microsatellite Variation

  • Li, M.H.;Nogovitsina, E.;Ivanova, Z.;Erhardt, G.;Vilkki, J.;Popov, R.;Ammosov, I.;Kiselyova, T.;Kantanen, J.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제18권5호
    • /
    • pp.613-619
    • /
    • 2005
  • Indigenous Yakutian cattle' adaptation to the hardest subarctic conditions makes them a valuable genetic resource for cattle breeding in the Siberian area. Since early last century, crossbreeding between native Yakutian cattle and imported Simmental and Kholmogory breeds has been widely adopted. In this study, variations at 22 polymorphic microsatellite loci in 5 populations of Yakutian, Kholmogory, Simmental, Yakutian-Kholmogory and Yakutian-Simmental cattle were analysed to estimate the genetic contribution of Yakutian cattle to the two hybrid populations. Three statistical approaches were used: the weighted least-squares (WLS) method which considers all allele frequencies; a recently developed implementation of a Markov chain Monte Carlo (MCMC) method called likelihood-based estimation of admixture (LEA); and a model-based Bayesian admixture analysis method (STRUCTURE). At population-level admixture analyses, the estimate based on the LEA was consistent with that obtained by the WLS method. Both methods showed that the genetic contribution of the indigenous Yakutian cattle in Yakutian-Kholmogory was small (9.6% by the LEA and 14.2% by the WLS method). In the Yakutian-Simmental population, the genetic contribution of the indigenous Yakutian cattle was considerably higher (62.8% by the LEA and 56.9% by the WLS method). Individual-level admixture analyses using STRUCTURE proved to be more informative than the multidimensional scaling analysis (MDSA) based on individual-based genetic distances. Of the 9 Yakutian-Simmental animals studied, 8 showed admixed origin, whereas of the 14 studied Yakutian-Kholmogory animals only 2 showed Yakutian ancestry (>5%). The mean posterior distributions of individual admixture coefficient (q) varied greatly among the samples in both hybrid populations. This study revealed a minor existing contribution of the Yakutian cattle in the Yakutian-Kholmogory hybrid population, but in the Yakutian-Simmental hybrid population, a major genetic contribution of the Yakutian cattle was seen. The results reflect the different crossbreeding patterns used in the development of the two hybrid populations. Additionally, molecular evidence for differences among individual admixture proportions was seen in both hybrid populations, resulting from the stochastic process in crossing over generations.

Survival Analysis for White Non-Hispanic Female Breast Cancer Patients

  • Khan, Hafiz Mohammad Rafiqullah;Saxena, Anshul;Gabbidon, Kemesha;Stewart, Tiffanie Shauna-Jeanne;Bhatt, Chintan
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제15권9호
    • /
    • pp.4049-4054
    • /
    • 2014
  • Background: Race and ethnicity are significant factors in predicting survival time of breast cancer patients. In this study, we applied advanced statistical methods to predict the survival of White non-Hispanic female breast cancer patients, who were diagnosed between the years 1973 and 2009 in the United States (U.S.). Materials and Methods: Demographic data from the Surveillance Epidemiology and End Results (SEER) database were used for the purpose of this study. Nine states were randomly selected from 12 U.S. cancer registries. A stratified random sampling method was used to select 2,000 female breast cancer patients from these nine states. We compared four types of advanced statistical probability models to identify the best-fit model for the White non-Hispanic female breast cancer survival data. Three model building criterion were used to measure and compare goodness of fit of the models. These include Akaike Information Criteria (AIC), Bayesian Information Criteria (BIC), and Deviance Information Criteria (DIC). In addition, we used a novel Bayesian method and the Markov Chain Monte Carlo technique to determine the posterior density function of the parameters. After evaluating the model parameters, we selected the model having the lowest DIC value. Using this Bayesian method, we derived the predictive survival density for future survival time and its related inferences. Results: The analytical sample of White non-Hispanic women included 2,000 breast cancer cases from the SEER database (1973-2009). The majority of cases were married (55.2%), the mean age of diagnosis was 63.61 years (SD = 14.24) and the mean survival time was 84 months (SD = 35.01). After comparing the four statistical models, results suggested that the exponentiated Weibull model (DIC= 19818.220) was a better fit for White non-Hispanic females' breast cancer survival data. This model predicted the survival times (in months) for White non-Hispanic women after implementation of precise estimates of the model parameters. Conclusions: By using modern model building criteria, we determined that the data best fit the exponentiated Weibull model. We incorporated precise estimates of the parameter into the predictive model and evaluated the survival inference for the White non-Hispanic female population. This method of analysis will assist researchers in making scientific and clinical conclusions when assessing survival time of breast cancer patients.

건전성 예측을 위한 모델변수 추정방법의 비교 (A Comparison Study of Model Parameter Estimation Methods for Prognostics)

  • 안다운;김남호;최주호
    • 한국전산구조공학회논문집
    • /
    • 제25권4호
    • /
    • pp.355-362
    • /
    • 2012
  • 건전성 예측은 구조물의 고장이 발생될 때까지 남은 시간인 잔존유효수명을 예측하는 것으로, 이는 안전 및 정비 계획과 직접적으로 연관되기 때문에 매우 중요하다. 건전성 예측방법에는 물리모델 기반방법, 데이터 기반방법과 두 방법의 장점을 통합하는 방법이 있으며, 본 연구에서는 잔존수명 예측의 정확도가 모델변수 추정과 직접적으로 관련되는 물리모델 기반 건전성 예측에 초점을 맞춘다. 물리모델기반 건전성 예측에서는 모델변수 추정을 통해 시스템 상태의 장기 예측이 가능하지만, 대부분의 실제 구조물들의 상태모델은 여러 개의 모델변수를 포함함은 물론이고, 그 변수들이 서로 상관되어 있기 때문에 모델변수를 추정하는 일은 간단한 문제가 아니다. 본 연구에서는 물리모델 기반 건전성 예측을 위한 세 가지 변수 추정방법들의 차이를 논한다. 이 세 가지 방법들은 파티클 필터, 전반적인 베이지안 접근법, 그리고 순차적인 베이지안 접근법으로 모두 베이지안 추론이라는 하나의 이론적 바탕에 기반하지만, 샘플링 방법이나 갱신 절차 등에서 차이가 있다. 균열성장을 표현하는 Paris 모델의 변수 추정을 통해 세 가지 방법의 차이점이 논해지고, 건전성 예측 메트릭을 이용하여 정량적 차이를 표현한다. 파티클 필터방법이 건전성 예측 메트릭 측면에서 가장 높은 성능을 나타내었지만, 전반적인 베이지안 방법은 파티클 필터방법과 근소한 차이를 보이면서도 데이터가 집단으로 존재할 때에는 가장 효율적인 방법으로 나타났다.

폭염재해의 재해취약성분석 및 리스크 평가 비교 (Comparison of Disaster Vulnerability Analysis and Risk Evaluation of Heat Wave Disasters)

  • 설유정;김호용
    • 한국지리정보학회지
    • /
    • 제26권1호
    • /
    • pp.132-144
    • /
    • 2023
  • 최근 기후변화 기온상승 따른 폭염의 발생 빈도와 강도가 증가하고 있다. 이에 본 연구는 정부가 채택한 기후변화 재해취약성분석에 따른 폭염 재해취약성분석과 최근 IPCC에서 강조하고 있는 재해평가 방법인 리스크 평가라는 두 가지의 폭염재해 평가를 부산광역시 폭염을 대상으로 평가과정과 평가결과를 비교하고 시사점을 도출하고자하였다. 기후변화 재해취약성분석은 정부에서 마련한 매뉴얼과 가이드라인을 기반으로 평가하고 있다. 리스크 평가는 재해발생가능성과 그 영향의 곱으로 평가될 수 있으며, 재해발생가능성을 산출함에 있어서 사전 정보를 활용하여 사후확률을 추론하는 베이지안 추정법을 기반으로 한 마르코브체인 몬테카를로 시뮬레이션을 활용하여 평가하고 있다. 분석 결과 부산광역시를 대상으로 한 두 가지 평가 결과는 폭염 취약 지역의 공간분포에서 다소 차이가 발생하였다. 기후변화에 따른 재해 취약 지역을 적절하게 평가하기 위해서는 기후변화 재해취약성분석과 리스크 평가의 분석 과정 및 결과를 살펴보고 각각의 방법론에 대한 고려와 그에 맞는 대응을 마련해야하며, 이를 통해 장기적인 폭염 대응 방안을 마련할 수 있을 것으로 사료된다.

Bayesian MCMC를 이용한 저수량 점 빈도분석: II. 적용과 비교분석 (At-site Low Flow Frequency Analysis Using Bayesian MCMC: II. Application and Comparative Studies)

  • 김상욱;이길성
    • 한국수자원학회논문집
    • /
    • 제41권1호
    • /
    • pp.49-63
    • /
    • 2008
  • 본 연구에서는 Bayesian MCMC 방법과 2차 근사식을 이용한 최우추정(Maximum Likelihood Estimation, MLE)방법 방법을 이용하여 낙동강 유역의 본류지점인 낙동, 왜관, 고령교, 진동지점에 대한 점 빈도분석을 수행하고 그 결과로써 불확실성을 포함한 빈도곡선을 작성하였다. 통계적 실험을 통한 두 가지 추정방법의 분석을 위하여 먼저 자료의 길이가 100인 8개의 합성 유량자료 셋을 생성하여 비교 연구를 수행하였으며, 이를 자료길이 36인 실측 유량 자료의 추정결과와 비교하였다. Bayesian MCMC 방법에 의한 평균값과 2차 근사식을 이용한 취우추정방법에 의한 모드에서의 2모수 Weibull 분포의 모수 추정값은 비슷한 결과를 보였으나, 불확실성을 나타내는 하한값과 상한값의 차이는 Bayesian MCMC 방법이 2차 근사식을 이용한 취우추정방법보다 불확실성을 감소시켜 나타내는 것을 알 수 있었다. 또한 실측 유량자료를 이용한 결과, 2차 근사식을 이용한 취우추정방법의 경우 자료의 길이가 감소됨에 따라 불확실성의 범위가 합성유량자료를 사용한 경우에 비해 상대적으로 증가되지만, Bayesian MCMC 방법의 경우에는 자료의 길이에 대한 영향이 거의 없다는 결론을 얻을 수 있었다. 그러므로 저수량 빈도분석을 수행하기 위해 충분한 자료를 확보할 수 없는 국내의 상황을 감안할 때, 위와 같은 결론으로부터 Bayesian MCMC 방법이 불확실성을 표현하는데 있어서 2차 근사식을 이용한 최우추정방법에 비해 합리적일 수 있다는 결론을 얻을 수 있었다.

베이지안 순서형 프로빗 준모수 회귀 모형 : 국민건강영양조사 2016 자료를 통한 흡연양태와 커피섭취 간의 관계 분석 (Bayesian ordinal probit semiparametric regression models: KNHANES 2016 data analysis of the relationship between smoking behavior and coffee intake)

  • 이다솜;이은지;조성일;최태련
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.25-46
    • /
    • 2020
  • 본 논문에서는 Bayesian spectral analysis regression (BSAR) 방법론을 이용한 베이지안 순서형 프로빗 준모수 회귀모형에 대해서 고찰한다. 순서형 프로빗 회귀모형은 순서가 있는 범주형 자료를 모형화하는 방법으로, 정규 분포의 분포함수의 역함수인 프로빗 연결함수를 이용해 각 범주의 확률과 설명변수을 연결함으로써 반응변수의 확률을 모형화한다. 베이지안 프로빗 회귀 모형은 정규 분포를 따르는 잠재변수를 도입함으로써 사후 분포 도출을 용이하게 하고, 절단점에 따라 나뉘어지는 잠재변수들의 값에 따라서 반응 변수들이 범주화된다. 본 논문에서는 이러한 잠재 변수 방법을 확장해 BSAR 방법론에 기반하여 단조증가/감소와 같은 형태제약을 반영할 수 있는 베이지안 이항형 및 순서형 프로빗 준모수 회귀모형에 대해 연구한다. 모의실험을 통하여 이항형 프로빗 준모수 회귀모형과 기존의 다른 모형들 간의 적합결과를 비교하고, 형태 제약에 따른 순서형 프로빗 준모수 회귀모형의 적합결과를 비교 분석하도록 한다. 아울러, 국민건강영양조사 제 7기 1차년도 (2016) 자료(Korean National Health and Nutrition Examination Survey (KNHANES), 2016)를 바탕으로, 본 논문에서 고찰한 이항형 및 순서형 프로빗 준모수 회귀모형을 적용하여, 흡연양태와 커피섭취 간의 관계에 대한 실증적 분석을 수행한다.

영 과잉 순서적 프로빗 모형을 이용한 한국인의 음주자료에 대한 베이지안 분석 (Bayesian Analysis of Korean Alcohol Consumption Data Using a Zero-Inflated Ordered Probit Model)

  • 오만숙;오현탁;박세미
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.363-376
    • /
    • 2012
  • 순서적 다항 반응변수의 경우 종종 과도하게 많은 수의 관측치가 0 범주에서 발생하는 영 과잉 특성을 지닌다. 이러한 영 과잉 자료에서 0범주를 발생시키는 요인이 여러 개 존재할 때 일반적인 순서적 프로빗 모형은 자료를 설명함에 있어서 한계를 지닌다. 본 논문에서는 영 과잉 특성을 반영한 이 단계 영 과잉 순서적 프로빗 모형의 베이지안 분석기법을 제시하고 이를 2008년도 통계청에서 조사한 한국인의 음주소비 자료에 적용시킨다. 첫 번째 단계에서는 음주소비가 하나도 없다고 답한 0 범주에 속하는 비음주자들을 신념 또는 영구적 건강상의 문제 등으로 상황에 관계없이 음주를 하지 않는 절대적 비음주자(genuine non-drinker, non-participant)와 현재 소비가 없지만 상황에 따라 음주자가 될 가능성이 있는 잠재적 음주자(zero consumption potential drinker)로 구분하는 프로빗 모형을 적용시켜 분석한다. 두 번째 단계에서는 잠재적 음주자와 1 이상의 범주에 속하는 실제적 음주자를 합하여 음주자 집단으로 보고 이에 대하여 순서적 프로빗 모형을 적용하여 분석한다. 분석결과, 비음주자 중 약 30%가 절대적 비음주자로 음주자료가 일반적 순서적 자료에 비하여 뚜렷한 영 과잉 특성을 가짐을 알 수 있었다. 각 변수의 한계효과를 분석함으로써 같은 설명변수가 절대적 비음주자와 잠재적 음주자에 미치는 영향이 서로 반대로 나타날 수 있음을 발견하였고, 따라서 한국인의 음주자료에 대하여 제안된 영 과잉 순서적 프로빗 모형이 유용함을 보여주었다.