• 제목/요약/키워드: 능형회귀 분석

검색결과 15건 처리시간 0.022초

回歸分析에 있어서의 多共線性과 名稱을 保全시키는 資料變換 技法

  • 兪浣
    • Journal of the Korean Statistical Society
    • /
    • 제8권2호
    • /
    • pp.109-116
    • /
    • 1979
  • 두 개의 변수의 대체효과(substitution effect)를 연구하기 위하여 수요 또는 공급의 모형을 만들었을 경우 이에 관련된 변수들의 이름이 중요시 된다. 실제 관측 자료를 사용하였을 경우 흔히 일어나는 다공선성(multicollinearity) 문제를 다루기 위한 대안으로써 선형회귀선을 예로 들어 능형회귀기법(ridge regression technique)과 요인분석기법(factor analytic technique)을 소개하였으며 이에서 얻어지는 계수(coefficient)를 OLS 추정치로 설명하기 위하여 원래의 자료를 변환하였다. 실지 수요와 공급의 모형이 비선형일 경우 일반적으로 능형회귀나 요인분석을 쓰지 못한다는 점을 감안, 이러한 방법을 자료의 변환방법으로 설명함으로써 비선형모형에서도 다공선성문제를 위하여 능형회귀분석법이나 요인분석기법을 사용할 수 있도록 하였다.

  • PDF

유전알고리즘을 이용한 능형회귀모형의 검정 : 빈도별 홍수량의 지역분석을 대상으로 (Calibration of the Ridge Regression Model with the Genetic Algorithm:Study on the Regional Flood Frequency Analysis)

  • 성기원
    • 한국수자원학회논문집
    • /
    • 제31권1호
    • /
    • pp.59-69
    • /
    • 1998
  • 빈도별 홍수량의 지역분석을 위하여 유역의 지형특성을 독립변수로 이용하는 회귀모형을 검정하였다. 그런데 이들 독립변수들간의 상관관계가 존재할 경우 능형회귀모형이 이용되기도 하는 이 방법은 다중공선성 문제를 극복하는데 적합한 방법으로 알려져 있다. 능형회귀모형을 최적화하기 위해서는 조정변수가 포함되는 비용함수를 최소화하여야 한다. 본 연구에서는 이 최적화를 위하여 유전알고리즘을 이용하였다. 유전알고리즘은 자연 생물의 유전 및 진화과정을 모방한 추계학적 탐색방법을 말한다. 이러한 유전알고리즘을 이용하여 지역분석 모형을 검정한 결과 안정된 매개변수의 가중치를 얻을 수 있었다.

  • PDF

준지도 커널능형회귀모형에 관한 연구 (A study on semi-supervised kernel ridge regression estimation)

  • 석경하
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.341-353
    • /
    • 2013
  • 데이터마이닝과 기계학습의 응용분야에서는 라벨 없는 자료를 이용하는 연구가 많이 진행되고 있다. 이러한 연구는 분류문제에 집중되었다가 최근에 회귀분석문제로 관심이 모아지고 있다. 본 연구에서는 커널능형회귀모형 형태의 준지도 회귀분석 방법을 제시한다. 제안된 방법은 기존의 전환적 방법과는 달리 라벨 없는 자료의 라벨을 추정하는 과정을 필요로 하지 않기 때문에 선택해야 할 모수의 수도 적고, 계산과정도 단순할 뿐 아니라 일반화에 강점이 있다. 모의실험과 실제 자료 분석을 통해 제안된 방법이 라벨 없는 자료를 잘 활용하여 라벨 있는 자료만 이용하는 방법보다 더 우수한 추정을 하는 것을 볼 수 있었다.

호우피해자료에서의 고차원 자료 및 다중공선성 문제를 해소한 회귀모형 개발 (Development of Regression Models Resolving High-Dimensional Data and Multicollinearity Problem for Heavy Rain Damage Data)

  • 김정환;박지현;최창현;김형수
    • 대한토목학회논문집
    • /
    • 제38권6호
    • /
    • pp.801-808
    • /
    • 2018
  • 선형회귀모형의 학습은 일반적으로 자료의 개수가 설명변수의 개수보다 충분히 크고, 설명변수들 사이에 심각한 다중공선성이 없다는 가정 하에서 안정적으로 이루어진다. 본 연구에서는 이러한 가정이 위배되었을 경우 모형 학습의 어려움을 실제 호우피해자료를 분석함으로써 조명하였고, 이를 해결하기 위해 자료를 통합한 다음 주성분회귀모형 또는 능형회귀모형을 사용할 것을 검토하였다. 모형의 학습에 사용된 자료와 별도의 독립된 자료에서 제안된 모형들의 예측력을 평가하였고, 제안된 방법이 선형회귀모형보다 더 나은 예측력을 보이는 것을 확인하였다.

주성분회귀와 고유값회귀에 대한 감도분석의 성질에 대한 연구 (A study on the properties of sensitivity analysis in principal component regression and latent root regression)

  • 신재경;장덕준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권2호
    • /
    • pp.321-328
    • /
    • 2009
  • 회귀분석에서 설명변수들 사이에 상관이 높으면 최소제곱추정법에서 구한 회귀계수들의 정도가 떨어진다. 다중공선성이라 불리는 이 현상은 실제 자료분석에서 심각한 문제를 야기시킨다. 이 다중공선성의 문제를 극복하기 위한 여러 가지 방법이 제안되었다. 능형회귀, 축소추정량 그리고 주성분분석에 기초한 주성분회귀와 고유값회귀등이 있다. 지난 수십 년간 많은 통계학자들은 일반적인 중 회귀에서 감도분석에 관해 연구하였으며, 주성분회귀, 고유값회귀와 로지스틱 주성분회귀에 대해서도 같은 주제로 연구하였다. 이 모든 방법에서 주성분분석은 중요한 역할을 하였다. 또한, 많은 통계학자들이 주성분분석과 관련된 다변량 방법에서 감도분석에 대해 연구를 하였다. 본 연구논문에서는 주성분회귀와 고유값회귀를 소개하고, 또한 주성분회귀와 고유값회귀에서 감도분석의 방법을 소개하고, 마지막으로 이들두방법에 대한 감도분석의 성질에 대해 논의하였다.

  • PDF

비선형 혼합효과모형에서의 로버스트 능형회귀 방법과 정량적 고속 대량 스크리닝 자료에의 응용 (Robust ridge regression for nonlinear mixed effects models with applications to quantitative high throughput screening assay data)

  • 유지선;임창원
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.123-137
    • /
    • 2018
  • 비선형 혼합효과 모형은 다양한 분야에서 반복 측정 자료를 분석할 때 주로 사용된다. 비선형 혼합효과 모형은 개체 내 변동(intra-individual variation)에 대해 고려하는 제 1단계 개별수준모델(individual-level model)과 개체간 변동(inter-individual variation)에 대해 고려하는 제 2단계 개체군모델(population model)의 두 단계로 구성되어 있다. 비선형 혼합효과 모형의 첫 번째 단계인 개별수준모델은 비선형 회귀모형의 모수를 추정하는 것으로 일반적인 비선형 회귀모형과 같고, 주로 보통최소제곱추정 방법을 사용하여 모수를 추정한다. 그러나 최소제곱추정방법은 가정된 비선형 함수가 자료에 의해 명시적으로 드러나지 않는 경우 모수의 추정값과 그 표준오차가 극단적으로 커지는 문제가 발생할 수 있다. 본 논문에서는 최근에 비선형 회귀모형에서 제안된 능형회귀(ridge regression) 방법을 비선형 혼합효과 모형의 제 1단계 개별수준모델에 도입함으로써 이러한 문제를 해결할 수 있는 새로운 추정방법을 제안하였다. 제안된 추정량은 모의실험 연구를 통하여 기존의 표준적인 추정량과 그 성능을 비교하였다. 또한 미국의 National Toxicology Program으로부터 얻어진 정량적 대량고속 스크리닝(quantitative high throughput screening) 실제 자료를 사용하여 추정 방법들을 비교하였다.

능형회귀분석을 활용한 부동산 헤도닉 가격모형의 정확성 및 해석력 향상에 관한 연구 - 서울시 구로구 아파트를 대상으로 - (Using Ridge Regression to Improve the Accuracy and Interpretation of the Hedonic Pricing Model : Focusing on apartments in Guro-gu, Seoul)

  • 구본상;신병진
    • 한국건설관리학회논문집
    • /
    • 제16권5호
    • /
    • pp.77-85
    • /
    • 2015
  • 헤도닉 가격 모형은 부동산 가격에 영향을 미치는 여러 요소를 모델링하는데 활용되는 대표적 방법이다. 부동산 가격은 전용면적, 방의 개수, 주차공간과 같은 내재적 속성 뿐 아니라 주변 선호/비선호시설의 존재여부에 따라 영향을 받는다. 주변 입지시설의 경우, 그 영향을 파악하기 위해서는 해당 부동산과의 인접거리를 설명변수로 사용하게 된다. 그러나 다수의 입지시설이 인접해 있는 경우에는 설명 변수 간 다중공선성이 발생하는 문제가 존재한다. 본 연구에서는 분산팽창지수 및 능형회귀분석을 이용해 다중공선성을 파악하고 유의한 설명변수를 선별하는데에 활용하였다. 이들 기법을 서울시 구로구 아파트들에 적용한 결과, 전철 차량 기지, 디지털 단지 및 위도에 해당하는 변수간의 다중공선성을 파악하였으며, 능형회귀분석을 통해 적합한 변수들을 체계적으로 선정할 수 있었다. 본 사례를 통해 상기 기법들이 더 정확하고 적정한 헤도닉 가격 모형을 구축하는데 중요한 보완적 기능을 해준다는 것을 알 수 있다.

평활화된 무차원 단위핵함수를 이용한 단위도의 유도 (A Derivation of a Hydrograph by Using Smoothed Dimensionless Unit Kernel Function)

  • 성기원
    • 한국수자원학회논문집
    • /
    • 제41권6호
    • /
    • pp.559-564
    • /
    • 2008
  • 본 연구에서는 복합 강우사상으로부터 단위도와 S-곡선을 도출하는 실용적인 방법을 강구하였다. 이 연구에서 이용된 단위핵함수는 단위도와 S-곡선을 유도하는데 있어서 기존의 방법보다 편리하다. 그러나 실제 자료를 분석할 때 단위핵함수는 진동을 보이고 불안정하기 때문에 단위도와 S-곡선 도출에 있어서 장애가 있다. 그런데 단위핵함수의 요소인 Nash 의 순간단위도를 추정함에 있어서 Laplacian 행렬을 이용한 능형회귀분석을 이용하면 사상에 대한 평균적인 단위핵함수를 구하는데 유익함을 발견하였다. 또한 이를 이용하여 단위도의 지속기간 변경도 가능하였다. 이 연구에서 제시된 방법론은 단위도 제작에 적지 않은 도움이 될 것으로 기대한다.

Mallows의 $C_L$ 통계량을 이용한 수문응답 추정 (Hydrologic Response Estimation Using Mallows' $C_L$ Statistics)

  • 성기원;심명필
    • 한국수자원학회논문집
    • /
    • 제32권4호
    • /
    • pp.437-445
    • /
    • 1999
  • 비모수능형회귀분석법을 이용하여 수문응답을 추정하는 방안에 대하여 연구하였다. 응답을 추정하기 위하여 평균제곱예측오차에 대한 추정량인 CL 통계량을 최소화하는 방법을 적용하였으며 가중행렬은 전통적으로 이용도는 단위행렬과 특수한 형태인 행렬인 Laplacian 행렬을 각각 이용하여 비교하였다. 또한 추정응답의 오차분산을 추정하는 방안에 대한 검토도 실행하였다. 합성자료와 실제자료에 대한 분석 결과 가중행렬과 Laplacian 행렬을 오차분산은 편기 수정된 추정치를 이용하는 것이 좋은 결과를 보여 주었다. 본 연구에서 제시된 절차 및 방법은 수문응답 분리에 있어서 안정적이고 효율적으로 적용될 수 있을 것으로 판단된다.

  • PDF

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.