• 제목/요약/키워드: censored regression

검색결과 94건 처리시간 0.024초

생존분석에서의 기계학습 (Machine learning in survival analysis)

  • 백재욱
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문은 중도중단 데이터가 포함된 생존데이터의 경우 적용할 수 있는 기계학습 방법에 대해 살펴보았다. 우선 탐색적인 자료분석으로 각 특성에 대한 분포, 여러 특성들 간의 관계 및 중요도 순위를 파악할 수 있었다. 다음으로 독립변수에 해당하는 여러 특성들과 종속변수에 해당하는 특성(사망여부) 간의 관계를 분류문제로 보고 logistic regression, K nearest neighbor 등의 기계학습 방법들을 적용해본 결과 적은 수의 데이터이지만 통상적인 기계학습 결과에서와 같이 logistic regression보다는 random forest가 성능이 더 좋게 나왔다. 하지만 근래에 성능이 좋다고 하는 artificial neural network나 gradient boost와 같은 기계학습 방법은 성능이 월등히 좋게 나오지 않았는데, 그 이유는 주어진 데이터가 빅데이터가 아니기 때문인 것으로 판명된다. 마지막으로 Kaplan-Meier나 Cox의 비례위험모델과 같은 통상적인 생존분석 방법을 적용하여 어떤 독립변수가 종속변수 (ti, δi)에 결정적인 영향을 미치는지 살펴볼 수 있었으며, 기계학습 방법에 속하는 random forest를 중도중단 데이터가 포함된 생존데이터에도 적용하여 성능을 평가할 수 있었다.

A Comparative Study of Microarray Data with Survival Times Based on Several Missing Mechanism

  • Kim Jee-Yun;Hwang Jin-Soo;Kim Seong-Sun
    • Communications for Statistical Applications and Methods
    • /
    • 제13권1호
    • /
    • pp.101-111
    • /
    • 2006
  • One of the most widely used method of handling missingness in microarray data is the kNN(k Nearest Neighborhood) method. Recently Li and Gui (2004) suggested, so called PCR(Partial Cox Regression) method which deals with censored survival times and microarray data efficiently via kNN imputation method. In this article, we try to show that the way to treat missingness eventually affects the further statistical analysis.

Estimation on Modified Proportional Hazards Model

  • Lee, Kwang-Ho;Lee, Mi-Sook
    • Journal of the Korean Data and Information Science Society
    • /
    • 제5권1호
    • /
    • pp.59-66
    • /
    • 1994
  • Heller and Simonoff(1990) compared several methods of estimating the regression coefficient in a modified proportional hazards model, when the response variable is subject to censoring. We give another method of estimating the parameters in the model which also allows the dependent variable to be censored and the error distribution to be unspecified. The proposed method differs from that of Miller(1976) and that of Buckely and James(1979). We also obtain the variance estimator of the coefficient estimator and compare that with the Buckely-James Variance estimator studied by Hillis(1993).

  • PDF

조건부 분위수의 중도절단을 고려한 비모수적 추정 (Nonparametric estimation of conditional quantile with censored data)

  • 김은영;최혜미
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.211-222
    • /
    • 2013
  • 중도절단된 자료가 있을 경우 조건부 분위수함수를 비모수적으로 추정하는 문제에 대하여 다루고 있다. 역함수에 근거한 방법인 Yu와 Jones (1998)에 의해 제안된 중복커널기법 추정량과 Lee 등(2006)의 국소로지스틱기법 추정량을 중도절단된 자료가 있는 경우로 수정하여 새롭게 제안하고, 이들을 기존의 Koenker와 Bassett (1978)의 점검함수에 근거한 커널평활 추정량들과 모의실험을 통해 비교해 보았다. 모의실험을 통하여 역함수에 근거한 추정량들은 조건부 분포가 대칭인 모형에서, 점검함수기법 추정량들은 한쪽으로 치우친 분포인 경우에 조건부 분위수를 대체로 더 잘 추정하고 있음을 알 수 있었다.

Estimation on a two-parameter Rayleigh distribution under the progressive Type-II censoring scheme: comparative study

  • Seo, Jung-In;Seo, Byeong-Gyu;Kang, Suk-Bok
    • Communications for Statistical Applications and Methods
    • /
    • 제26권2호
    • /
    • pp.91-102
    • /
    • 2019
  • In this paper, we propose a new estimation method based on a weighted linear regression framework to obtain some estimators for unknown parameters in a two-parameter Rayleigh distribution under a progressive Type-II censoring scheme. We also provide unbiased estimators of the location parameter and scale parameter which have a nuisance parameter, and an estimator based on a pivotal quantity which does not depend on the other parameter. The proposed weighted least square estimator (WLSE) of the location parameter is not dependent on the scale parameter. In addition, the WLSE of the scale parameter is not dependent on the location parameter. The results are compared with the maximum likelihood method and pivot-based estimation method. The assessments and comparisons are done using Monte Carlo simulations and real data analysis. The simulation results show that the estimators ${\hat{\mu}}_u({\hat{\theta}}_p)$ and ${\hat{\theta}}_p({\hat{\mu}}_u)$ are superior to the other estimators in terms of the mean squared error (MSE) and bias.

결측되었거나 구간중도절단된 중간사건을 가진 준경쟁적위험 자료에 대한 가산위험모형 (Additive hazards models for interval-censored semi-competing risks data with missing intermediate events)

  • 김자연;김진흠
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.539-553
    • /
    • 2017
  • 본 논문에서는 사망과 같은 종말사건의 발생 유무는 알고 있지만 치매 발병과 같은 중간사건이 구간중도절단 되었거나 연구 기간 도중에 추적이 끊겨 결측된 준경쟁적위험 자료에 대해 다중상태모형을 적용하여 모수를 추정하는 방법을 제안하였다. 이를 위해 본 논문에서는 상태 간의 전이강도는 로그정규 프레일티를 랜덤효과로 가진 Lin과 Ying(1994)의 가산위험모형을 따른다고 가정하였다. 다섯 가지 상태를 가진 다중상태모형에서 가능한 여섯 가지 경로별로 조건부우도를 정의하였고, 주변우도를 구하기 위해 조정중요표본추출법을 적용하였으며 반복유사뉴튼 방법으로 최적해를 구하였다. 소표본 모의실험을 통해 모수의 95% 신뢰구간 포함률이 명목값에 얼마나 가까운지 살펴보았으며, 제안한 모형을 Persones $Ag{\acute{e}}es$ Quid (PAQUID) 자료 (Helmer 등, 2001)에 적용하고 그 결과를 해석하였다.

경쟁 위험 회귀 모형의 이해와 추정 방법 (Estimation methods and interpretation of competing risk regression models)

  • 김미정
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1231-1246
    • /
    • 2016
  • 경쟁위험에 대한 연구 중 주로 쓰이는 방법은 Cause-specific 위험 모형과 subdistribution을 이용한 비례 위험 모형 방법이다. 그 이후에도 많은 모형이 제시되었지만, 추정 방법 면에서 설명력이 부족하거나 알고리즘으로 구현하기 어려운 단점을 가지고 있어서 잘 활용되고 있지 않다. 이 논문에서는 Cause-specific 위험 모형, subdistribution을 이용한 비례 위험 모형과 비교적 최근에 제시된 이항 회귀 모형(direct binomial model), 절대 위험 회귀 모형(absolute risk regression model), Eriksson 등 (2015)의 비례 오즈 모형(proportional odds model)을 소개하고 추정 방법을 간단히 설명하고자 한다. 각 모형에 대하여 SAS와 R을 이용한 활용 방법을 제시하고, 두 가지 경쟁위험이 존재하는 데이터를 R을 이용하여 분석하였다.

단조 서포트벡터기계를 이용한 카플란-마이어 생존함수의 평활 (Smoothing Kaplan-Meier estimate using monotone support vector regression)

  • 황창하;심주용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1045-1054
    • /
    • 2012
  • 서포트벡터 기계는 분류 및 비선형 함수추정에서 유용하게 사용되고 있는 통계적 기법이다. 본 논문에서는 두 개의 입력변수와 회귀함수의 단조 관계를 이용하여 단조 서포트벡터기계를 제안하고, Kaplan-Meier의 방법에 의해서 생존함수의 추정값이 주어진 경우 제안된 방법을 이용하여 생존 함수를 평활하는 방법 또한 제안한다. 모의실험에서는 실제 생존함수를 이용하여 Kaplan-Meier의 방법에 의한 생존함수의 추정값과의 성능을 비교함으로써 제안된 방법의 우수성을 보이기로 한다.

Semiparametric support vector machine for accelerated failure time model

  • Hwang, Chang-Ha;Shim, Joo-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.765-775
    • /
    • 2010
  • For the accelerated failure time (AFT) model a lot of effort has been devoted to develop effective estimation methods. AFT model assumes a linear relationship between the logarithm of event time and covariates. In this paper we propose a semiparametric support vector machine to consider situations where the functional form of the effect of one or more covariates is unknown. The proposed estimating equation can be computed by a quadratic programming and a linear equation. We study the effect of several covariates on a censored response variable with an unknown probability distribution. We also provide a generalized approximate cross-validation method for choosing the hyper-parameters which affect the performance of the proposed approach. The proposed method is evaluated through simulations using the artificial example.

An Exploratory Study on the New Product Demand Curve Estimation Using Online Auction Data

  • Shim Seon-Young;Lee Byung-Tae
    • Management Science and Financial Engineering
    • /
    • 제11권3호
    • /
    • pp.125-136
    • /
    • 2005
  • As the importance of time-based competition is increasing, information systems for supporting the immediate decision making is strongly required. Especially high -tech product firms are under extreme pressure of rapid response to the demand side due to relatively short life cycle of the product. Therefore, the objective of our research is proposing a framework of estimating demand curve based on e-auction data, which is extremely easy to access and well reflect the limited demand curve in that channel. Firstly, we identify the advantages of using e-auction data for full demand curve estimation and then verify it using Agent-Eased-Modeling and Tobin's censored regression model.