• 제목/요약/키워드: 벌점화 회귀 모형

검색결과 14건 처리시간 0.023초

비정상 자기회귀모형에서의 벌점화 추정 기법에 대한 연구 (Model selection for unstable AR process via the adaptive LASSO)

  • 나옥경
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.909-922
    • /
    • 2019
  • 벌점화 추정 기법 중 adaptive LASSO 방법은 모형 선택과 모수 추정을 동시에 할 수 있는 유명한 방법으로 이미 정상 자기회귀모형에서 연구된 적이 있다. 본 논문에서는 이를 확장하여 확률보행과정과 같은 비정상 자기회귀모형에서 adaptive LASSO 추정량이 갖는 성질을 모의실험을 통해 연구하였다. 다만 비정상 자기회귀모형에서는 단위근의 존재 여부를 판단하는 것과 모형의 차수를 선택하는 것이 가장 중요하므로, 이를 위해 원 자기회귀모형이 아닌 ADF 검정에서 고려하는 회귀모형으로 변환하여 adaptive LASSO를 적용하였다. 일반적으로 Adaptive LASSO를 적용할 때 조절모수의 선택이 가장 중요한 문제이며, 본 논문에서는 교차검증, AIC, BIC 세 가지 방법을 이용하여 조절모수를 선택하였다. 모의실험 결과를 보면, 이 중에서 BIC가 최소가 되도록 선택한 조절모수에 대응되는 adaptive LASSO 추정량이 단위근의 존재 여부를 잘 판단할 뿐만 아니라 자기회귀모형의 차수 또한 비교적 정확하게 선택함을 확인할 수 있다.

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

벌점화 분위수 회귀나무모형에 대한 연구 (Penalized quantile regression tree)

  • 김재오;조형준;방성완
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1361-1371
    • /
    • 2016
  • 분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

평균-분산 가속화 실패시간 모형에서 벌점화 변수선택 (Penalized variable selection in mean-variance accelerated failure time models)

  • 권지훈;하일도
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.411-425
    • /
    • 2021
  • 가속화 실패시간모형은 로그 생존시간과 공변량간의 선형적 관계를 묘사해 준다. 가속화 실패시간모형에서 생존시간의 평균뿐만 아니라 변동성에도 영향을 미치는 공변량 효과를 추론하는 것은 흥미가 있다. 이를 위해 생존시간의 평균뿐만 아니라 분산을 모형화 하는 것이 필요하며, 이러한 모형을 평균-분산 가속화 실패시간모형이라 부른다. 본 논문에서는 벌점 가능도함수를 이용하여 평균-분산 가속화 실패시간모형에서 회귀모수에 대한 변수선택 절차를 제안한다. 여기서 벌점함수로서 LASSO, ALASSO, SCAD 그리고 HL (계층가능도)와 같은 네 가지 벌점함수를 연구한다. 제안된 변수선택 절차를 통해 중요한 공변량의 선택 뿐만 아니라 회귀모수의 추정을 동시에 제공할 수 있다. 제안된 방법의 성능은 모의실험을 통해 평가하고, 하나의 임상 예제자료를 통해 제안된 방법을 예증하고자 한다.

다수준 프레일티모형 변수선택법을 이용한 다기관 방광암 생존자료분석 (Analysis of multi-center bladder cancer survival data using variable-selection method of multi-level frailty models)

  • 김보현;하일도;이동환
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.499-510
    • /
    • 2016
  • 생존분석 회귀모형에서 적절한 변수를 선택하는 것은 매우 중요하다. 본 논문에서는 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 다수준 프레일티 모형 (multi-level frailty models)에서 벌점화 변수선택 방법 (penalized variable-selection method)의 절차를 소개한다. 여기서 모형 추정은 벌점화 다단계 가능도에 기초하며, 세 가지 벌점 함수 (LASSO, SCAD 및 HL)가 고려된다. 개발된 방법의 예증을 위해 벨기에 EORTC (European Organization for Research and Treatment of Cancer; 유럽 암 치료기구)에서 수행된 다국가/다기관 임상시험 자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 그 결과들의 상대적 장 단점에 대해 토론한다. 특히, 자료 분석 결과에 의하면 SCAD와 HL방법이 LASSO보다 중요한 변수를 잘 선택하는 것으로 나타났다.

베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀 (Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression)

  • 강종경;한석원;방성완
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.217-227
    • /
    • 2022
  • 분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

frailtyHL 통계패키지를 이용한 프레일티 모형의 변수선택: 유방암 생존자료 (Variable Selection in Frailty Models using FrailtyHL R Package: Breast Cancer Survival Data)

  • 김보현;하일도;노맹석;나명환;송호천;김자혜
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.965-976
    • /
    • 2015
  • 통계적 모형에서 적절한 변수를 선택하는 것은 회귀분석에서 매우 중요하다. 최근 벌점 함수(예: LASSO 및 SCAD)와 함께 벌점화 가능도를 사용하는 변수 선택 방법들이 선형모형 및 일반화 선형모형과 같은 단순한 통계 모형에서 널리 연구되고 있다. 이러한 방법들의 주요 장점은 중요한 변수를 선택하고 동시에 회귀계수를 추정하는 것이다. 그러므로 이 방법들은 0으로 회귀계수를 추정함으로써 중요하지 않은 변수를 삭제한다. 이 논문에서는 콕스 비례 위험 모형의 한 확장인 준 모수적 프레일티 모형에서 벌점화된 다단계 가능도(h-likelihood; HL)를 기반으로 적절한 변수를 선택하는 방법을 연구한다. 이를 위해 세 가지 벌점 함수 LASSO, SCAD 및 HL을 사용한다. 본 논문에서는 변수선택을 효율적으로 하기 위해 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 새로운 함수를 개발하였다. 개발된 방법의 예증을 위해 전남대 의과대학 병원에서 수집된 유방암 생존자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 이 변수선택방법들의 상대적 장 단점에 대해 토론한다.

다변량 선형회귀모형의 벌점화 최소거리추정에 관한 연구 (Penalized least distance estimator in the multivariate regression model)

  • 신정민;강종경;방성완
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.1-12
    • /
    • 2024
  • 동일한 설명변수 집합에 여러 개의 반응 변수들이 종속되어 있는 경우를 많은 실제 자료에서 볼 수 있다. 특히, 여러 개의 반응변수가 서로 상관관계를 가지고 있으면 각각의 반응변수에 대한 개별적인 분석보다는 반응변수들 사이의 상관관계를 고려한 동시 추정(simultaneous estimation)이 매우 효과적이다. 이러한 다변량 회귀분석에서 최소거리추정량(least distance estimator; LDE)은 반응변수들간의 상관관계를 모형 적합 과정에 반영하여 다차원 유클리드 공간에서 각 훈련 개체와 추정값 사이의 거리를 최소화하도록 회귀계수들을 동시에 추정한다. 뿐만 아니라 최소거리추정량은 이상치에 대한 강건성을 제공한다. 본 논문에서는 다변량 선형 회귀분석에서의 최소거리추정법에 대해 살펴보고, 나아가 효율적인 변수선택을 위한 벌점화 최소거리추정량을 제시하였다. 본 연구에서 제안하는 adaptive group LASSO 벌점항을 적용한 AGLDE 기법은 반응변수들간의 상관관계를 모형 적합에 반영함과 동시에 설명변수의 중요도에 따라 효율적으로 변수선택을 수행할 수 있다. 제안 방법의 유용성은 모의실험과 실제 자료 분석을 통해 확인하였다.

국내 회사채 신용 등급 예측 모형의 비교 연구 (Comparative study of prediction models for corporate bond rating)

  • 박형권;강준영;허성욱;유동현
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.367-382
    • /
    • 2018
  • 회사채 신용 등급 예측 모형에 대한 연구는 신용 평가 기관이 회사채 신용 등급 평가에 사용될 것이라 예상 되는 여러 재무적 특성 변수들을 기반으로 진행되었으며 선형 회귀 모형(linear regression), 순위 로짓(ordered logit), 순위 프로빗(ordered probit), 서포트 벡터 기계(support vector machine), 랜덤 포레스트(random forest) 등 다양한 모형들을 적용하여 개발되었다. 하지만 기존 연구들에서 고려한 회사채 신용 등급은 연구에 따라 5등급에서 20등급까지 다른 등급 구간을 적용하였으며 분석에 이용된 표본 자료의 기간 및 대상도 상이하여 예측 성능의 공정한 비교에 어려움이 있다. 따라서 본 연구에서는 2013년부터 2017년까지의 회사채 신용 등급 자료와 기존 연구들에서 사용된 재무 지표들을 통합하여 기존에 발표된 예측 모형들을 동일한 자료에 적용하고 예측 성능을 비교하였다. 추가적으로 Elastic-net 벌점화 회귀 모형 및 순위 로짓, 순위 프로빗 모형을 적합하여 LASSO 벌점이 선택됨을 확인하였으며 LASSO 벌점을 고려한 예측 모형이 대응하는 기존의 예측 모형들보다 향상된 성능을 보임을 확인하였다. 본 연구의 수행 결과, 랜덤 포레스트를 이용한 예측 모형이 15등급 기준 검증 자료에서 정확한 등급 예측률이 69.6%로 다른 모형과 비교하여 높은 예측 성능을 나타내었다.

희박 벡터 자기 회귀 모형의 로버스트 추정 (Robust estimation of sparse vector autoregressive models)

  • 김동영;백창룡
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.631-644
    • /
    • 2022
  • 본 논문은 고차원 시계열 자료에 이상점이 존재하는 경우 희박벡터자기회귀모형(sparse VAR; sVAR)의 모수를 강건하게 추정하는 방법에 대해서 연구하였다. 먼저 Xu 등 (2008)이 독립인 자료에서 밝혔듯이 adaptive lasso 방법이 sVAR 모형에서도 어느 정도의 강건함을 가짐을 모의 실험을 통해 알 수 있었다. 하지만, 이상점의 개수가 증가하거나 이상점의 영향력이 커지는 경우 효율성이 현저히 저하되는 현상도 관찰할 수 있었다. 따라서 이를 개선하기 위해서 최소절대편차(least absolute deviation; LAD)와 Huber 함수를 기반으로 벌점화 시키는 adaptive lasso를 이용하여 sVAR 모형을 추정하는 방법을 본 논문에서는 제안하고 그 성능을 검토하였다. 모의 실험을 통해 제안한 로버스트 추정 방법이 이상점이 존재하는 경우에 모수 추정을 더 정확하게 하고 예측 성능도 뛰어남을 확인했다. 또한 해당 방법론들을 전력사용량 데이터에 적용한 결과 이상점으로 의심되는 시점들이 존재하였고, 이를 고려하여 강건하게 추정하는 제안한 방법론이 더 좋은 예측 성능을 보임을 확인할 수 있었다.