• 제목/요약/키워드: Penalized regression

검색결과 78건 처리시간 0.02초

Stable activation-based regression with localizing property

  • Shin, Jae-Kyung;Jhong, Jae-Hwan;Koo, Ja-Yong
    • Communications for Statistical Applications and Methods
    • /
    • 제28권3호
    • /
    • pp.281-294
    • /
    • 2021
  • In this paper, we propose an adaptive regression method based on the single-layer neural network structure. We adopt a symmetric activation function as units of the structure. The activation function has a flexibility of its form with a parametrization and has a localizing property that is useful to improve the quality of estimation. In order to provide a spatially adaptive estimator, we regularize coefficients of the activation functions via ℓ1-penalization, through which the activation functions to be regarded as unnecessary are removed. In implementation, an efficient coordinate descent algorithm is applied for the proposed estimator. To obtain the stable results of estimation, we present an initialization scheme suited for our structure. Model selection procedure based on the Akaike information criterion is described. The simulation results show that the proposed estimator performs favorably in relation to existing methods and recovers the local structure of the underlying function based on the sample.

Bayesian curve-fitting with radial basis functions under functional measurement error model

  • Hwang, Jinseub;Kim, Dal Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권3호
    • /
    • pp.749-754
    • /
    • 2015
  • This article presents Bayesian approach to regression splines with knots on a grid of equally spaced sample quantiles of the independent variables under functional measurement error model.We consider small area model by using penalized splines of non-linear pattern. Specifically, in a basis functions of the regression spline, we use radial basis functions. To fit the model and estimate parameters we suggest a hierarchical Bayesian framework using Markov Chain Monte Carlo methodology. Furthermore, we illustrate the method in an application data. We check the convergence by a potential scale reduction factor and we use the posterior predictive p-value and the mean logarithmic conditional predictive ordinate to compar models.

Efficient estimation and variable selection for partially linear single-index-coefficient regression models

  • Kim, Young-Ju
    • Communications for Statistical Applications and Methods
    • /
    • 제26권1호
    • /
    • pp.69-78
    • /
    • 2019
  • A structured model with both single-index and varying coefficients is a powerful tool in modeling high dimensional data. It has been widely used because the single-index can overcome the curse of dimensionality and varying coefficients can allow nonlinear interaction effects in the model. For high dimensional index vectors, variable selection becomes an important question in the model building process. In this paper, we propose an efficient estimation and a variable selection method based on a smoothing spline approach in a partially linear single-index-coefficient regression model. We also propose an efficient algorithm for simultaneously estimating the coefficient functions in a data-adaptive lower-dimensional approximation space and selecting significant variables in the index with the adaptive LASSO penalty. The empirical performance of the proposed method is illustrated with simulated and real data examples.

다변량 선형회귀모형의 벌점화 최소거리추정에 관한 연구 (Penalized least distance estimator in the multivariate regression model)

  • 신정민;강종경;방성완
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.1-12
    • /
    • 2024
  • 동일한 설명변수 집합에 여러 개의 반응 변수들이 종속되어 있는 경우를 많은 실제 자료에서 볼 수 있다. 특히, 여러 개의 반응변수가 서로 상관관계를 가지고 있으면 각각의 반응변수에 대한 개별적인 분석보다는 반응변수들 사이의 상관관계를 고려한 동시 추정(simultaneous estimation)이 매우 효과적이다. 이러한 다변량 회귀분석에서 최소거리추정량(least distance estimator; LDE)은 반응변수들간의 상관관계를 모형 적합 과정에 반영하여 다차원 유클리드 공간에서 각 훈련 개체와 추정값 사이의 거리를 최소화하도록 회귀계수들을 동시에 추정한다. 뿐만 아니라 최소거리추정량은 이상치에 대한 강건성을 제공한다. 본 논문에서는 다변량 선형 회귀분석에서의 최소거리추정법에 대해 살펴보고, 나아가 효율적인 변수선택을 위한 벌점화 최소거리추정량을 제시하였다. 본 연구에서 제안하는 adaptive group LASSO 벌점항을 적용한 AGLDE 기법은 반응변수들간의 상관관계를 모형 적합에 반영함과 동시에 설명변수의 중요도에 따라 효율적으로 변수선택을 수행할 수 있다. 제안 방법의 유용성은 모의실험과 실제 자료 분석을 통해 확인하였다.

frailtyHL 통계패키지를 이용한 프레일티 모형의 변수선택: 유방암 생존자료 (Variable Selection in Frailty Models using FrailtyHL R Package: Breast Cancer Survival Data)

  • 김보현;하일도;노맹석;나명환;송호천;김자혜
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.965-976
    • /
    • 2015
  • 통계적 모형에서 적절한 변수를 선택하는 것은 회귀분석에서 매우 중요하다. 최근 벌점 함수(예: LASSO 및 SCAD)와 함께 벌점화 가능도를 사용하는 변수 선택 방법들이 선형모형 및 일반화 선형모형과 같은 단순한 통계 모형에서 널리 연구되고 있다. 이러한 방법들의 주요 장점은 중요한 변수를 선택하고 동시에 회귀계수를 추정하는 것이다. 그러므로 이 방법들은 0으로 회귀계수를 추정함으로써 중요하지 않은 변수를 삭제한다. 이 논문에서는 콕스 비례 위험 모형의 한 확장인 준 모수적 프레일티 모형에서 벌점화된 다단계 가능도(h-likelihood; HL)를 기반으로 적절한 변수를 선택하는 방법을 연구한다. 이를 위해 세 가지 벌점 함수 LASSO, SCAD 및 HL을 사용한다. 본 논문에서는 변수선택을 효율적으로 하기 위해 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 새로운 함수를 개발하였다. 개발된 방법의 예증을 위해 전남대 의과대학 병원에서 수집된 유방암 생존자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 이 변수선택방법들의 상대적 장 단점에 대해 토론한다.

혼합회귀모형에서 콤포넌트 및 설명변수에 대한 벌점함수의 적용 (Joint penalization of components and predictors in mixture of regressions)

  • 박종선;모은비
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.199-211
    • /
    • 2019
  • 주어진 회귀자료에 유한혼합회귀모형을 적합하는 경우 적절한 성분의 수를 선택하고 선택된 각각의 회귀모형에서 의미있는 예측변수들의 집합을 선택하며 동시에 편의와 변동이 작은 회귀계수 추정치들을 얻는 것은 매우 중요하다. 본 연구에서는 혼합선형회귀모형에서 성분의 개수와 회귀계수에 벌점함수를 적용하여 적절한 성분의 수와 각 성분의 회귀모형에 필요한 설명변수들을 동시에 선택하는 방법을 제시하였다. 성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점함수를 적용하였고 회귀계수들에는 SCAD와 더불어 MCP 및 Adplasso 벌점함수들을 사용하여 가상자료와 실제자료들에 대한 결과를 비교하였다. SCAD-SCAD 벌점함수 조합과 SCAD-MCP 조합의 경우 기존의 Luo 등 (2008)의 방법에서 문제가 되었던 과적합 문제를 해결함과 동시에 선택된 성분의 수와 회귀계수들을 효과적으로 선택하였으며 회귀계수들의 추정치에 대한 편의도 크지 않았다. 본 연구는 성분의 수가 알려져 있지 않은 회귀자료에서 적절한 성분의 수와 더불어 각 성분에 대한 회귀모형에서 모형에 필요한 예측변수들을 동시에 선택하는 방법을 제시하였다는데 의미가 있다고 하겠다.

Claims Reserving via Kernel Machine

  • Kim, Mal-Suk;Park, He-Jung;Hwang, Chang-Ha;Shim, Joo-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1419-1427
    • /
    • 2008
  • This paper shows the kernel Poisson regression which can be applied in the claims reserving, where the row effect is assumed to be a nonlinear function of the row index. The paper concentrates on the chain-ladder technique, within the framework of the chain-ladder linear model. It is shown that the proposed method can provide better reserve estimates than the Poisson model. The cross validation function is introduced to choose optimal hyper-parameters in the procedure. Experimental results are then presented which indicate the performance of the proposed model.

  • PDF

Ovarian Cancer Prognostic Prediction Model Using RNA Sequencing Data

  • Jeong, Seokho;Mok, Lydia;Kim, Se Ik;Ahn, TaeJin;Song, Yong-Sang;Park, Taesung
    • Genomics & Informatics
    • /
    • 제16권4호
    • /
    • pp.32.1-32.7
    • /
    • 2018
  • Ovarian cancer is one of the leading causes of cancer-related deaths in gynecological malignancies. Over 70% of ovarian cancer cases are high-grade serous ovarian cancers and have high death rates due to their resistance to chemotherapy. Despite advances in surgical and pharmaceutical therapies, overall survival rates are not good, and making an accurate prediction of the prognosis is not easy because of the highly heterogeneous nature of ovarian cancer. To improve the patient's prognosis through proper treatment, we present a prognostic prediction model by integrating high-dimensional RNA sequencing data with their clinical data through the following steps: gene filtration, pre-screening, gene marker selection, integrated study of selected gene markers and prediction model building. These steps of the prognostic prediction model can be applied to other types of cancer besides ovarian cancer.

격자자료 결측복원을 위한 DCT-PLS 기법의 활용성 평가 (Evaluation of the DCT-PLS Method for Spatial Gap Filling of Gridded Data)

  • 윤유정;김서연;정예민;조수빈;이양원
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1407-1419
    • /
    • 2020
  • 지구환경 변화를 파악하는 데 있어서는 장기 시계열의 격자자료가 필수적이며, 기후 재분석장과 위성자료는 대기 및 지표면 변수에 대하여 전 지구 규모에서 주기적이고 정량적인 정보로 활용되고 있다. 본 연구에서는 위성자료의 결측 문제를 해결하기 위한 방안으로 DCT-PLS (penalized least square regression based on discrete cosine transform) 기반의 결측복원 기법을 서로 다른 특성을 가진 복수의 격자자료에 적용하고, 정량적인 검증을 통하여 그 활용성을 평가하였다. 원본 자료와의 객관적인 비교를 위하여 결측이 없는 LDAPS (Local Data Assimilation and Prediction System) 모델로부터 상대습도, 풍속 일자료를 추출하고, MODIS (Moderate Resolution Imaging Spectroradiometer)의 월간 합성 LST (land surface temperature), NDVI (normalized difference vegetation index) 영상을 사용하여, 임의로 생성된 결측 블록이 원본에 매우 가깝게 복원됨을 확인하였고, 4가지 변수 모두에서 상관계수 0.95 이상의 일치도를 나타내었다. DCT-PLS 기반 결측복원 기법은 별도의 보조자료를 필요로 하지 않고, 필요시 시간 및 공간 정보를 모두 활용할 수 있으며, 처리속도가 비교적 빠르기 때문에 현업시스템에 사용될 수 있을 것으로 사료된다.

유방암에서 자기공명영상 근거 영상표현형과 유전자 발현 프로파일 근거 위험도의 관계 (Correlation between MR Image-Based Radiomics Features and Risk Scores Associated with Gene Expression Profiles in Breast Cancer)

  • 김가람;구유진;김준호;김은경
    • 대한영상의학회지
    • /
    • 제81권3호
    • /
    • pp.632-643
    • /
    • 2020
  • 목적 자기공명영상 근거 영상표현형과 생체분자학적 아형, 유전자 발현 프로파일 근거 위험도 등 유방암 유전체 특징의 관계를 분석하고자 하였다. 대상과 방법 The Cancer Genome Atlas와 and the Cancer Imaging Archive에 공개된 자료를 이용하였다. 122개의 유방암의 자기공명영상에서 영상표현형이 추출되었다. 유전자 발현 프로파일에 따라 PAM50아형을 분류하고 위험도를 지정하였다. 영상표현형과 생체분자학적 특징의 관계를 분석하였다. 예측모델을 알아보기 위해 penalized generalized regression analysis를 이용하였다. 결과 PAM50아형은 maximum 2D diameter (p = 0.0189), degree of correlation (p = 0.0386), 그리고 inverse difference moment normalized (p = 0.0337)와 유의하게 관련이 있었다. 위험도 시스템 중에 GGI와 GENE70이 통계적으로 유의하게 8개의 영상표현형 특징을 서로 공유하였다(p = 0.0008~0.0492). Maximum 2D diameter가 두 위험도 시스템에서 가장 유의하게 관련있는 특징이었으나(p = 0.0139, p = 0.0008) 예측모델의 전반적인 연관 정도는 약했고 가장 높은 연관계수는 GENE70이 0.2171이었다. 결론 영상표현형 중에 maximum 2D diameter, degree of correlation, 그리고 inverse difference moment normalized가 PAM50 아형 그리고 GENE70과 같은 유전자 발현 프로파일 근거 위험도와 그 연관도는 약하였으나 유의한 관련을 보였다.