• Title/Summary/Keyword: 다중회귀 모형

Search Result 705, Processing Time 0.03 seconds

Application of multiple linear regression and artificial neural network models to forecast long-term precipitation in the Geum River basin (다중회귀모형과 인공신경망모형을 이용한 금강권역 강수량 장기예측)

  • Kim, Chul-Gyum;Lee, Jeongwoo;Lee, Jeong Eun;Kim, Hyeonjun
    • Journal of Korea Water Resources Association
    • /
    • v.55 no.10
    • /
    • pp.723-736
    • /
    • 2022
  • In this study, monthly precipitation forecasting models that can predict up to 12 months in advance were constructed for the Geum River basin, and two statistical techniques, multiple linear regression (MLR) and artificial neural network (ANN), were applied to the model construction. As predictor candidates, a total of 47 climate indices were used, including 39 global climate patterns provided by the National Oceanic and Atmospheric Administration (NOAA) and 8 meteorological factors for the basin. Forecast models were constructed by using climate indices with high correlation by analyzing the teleconnection between the monthly precipitation and each climate index for the past 40 years based on the forecast month. In the goodness-of-fit test results for the average value of forecasts of each month for 1991 to 2021, the MLR models showed -3.3 to -0.1% for the percent bias (PBIAS), 0.45 to 0.50 for the Nash-Sutcliffe efficiency (NSE), and 0.69 to 0.70 for the Pearson correlation coefficient (r), whereas, the ANN models showed PBIAS -5.0~+0.5%, NSE 0.35~0.47, and r 0.64~0.70. The mean values predicted by the MLR models were found to be closer to the observation than the ANN models. The probability of including observations within the forecast range for each month was 57.5 to 83.6% (average 72.9%) for the MLR models, and 71.5 to 88.7% (average 81.1%) for the ANN models, indicating that the ANN models showed better results. The tercile probability by month was 25.9 to 41.9% (average 34.6%) for the MLR models, and 30.3 to 39.1% (average 34.7%) for the ANN models. Both models showed long-term predictability of monthly precipitation with an average of 33.3% or more in tercile probability. In conclusion, the difference in predictability between the two models was found to be relatively small. However, when judging from the hit rate for the prediction range or the tercile probability, the monthly deviation for predictability was found to be relatively small for the ANN models.

Multivariate Analysis for Clinicians (임상의를 위한 다변량 분석의 실제)

  • Oh, Joo Han;Chung, Seok Won
    • Clinics in Shoulder and Elbow
    • /
    • v.16 no.1
    • /
    • pp.63-72
    • /
    • 2013
  • In medical research, multivariate analysis, especially multiple regression analysis, is used to analyze the influence of multiple variables on the result. Multiple regression analysis should include variables in the model and the problem of multi-collinearity as there are many variables as well as the basic assumption of regression analysis. The multiple regression model is expressed as the coefficient of determination, $R^2$ and the influence of independent variables on result as a regression coefficient, ${\beta}$. Multiple regression analysis can be divided into multiple linear regression analysis, multiple logistic regression analysis, and Cox regression analysis according to the type of dependent variables (continuous variable, categorical variable (binary logit), and state variable, respectively), and the influence of variables on the result is evaluated by regression coefficient${\beta}$, odds ratio, and hazard ratio, respectively. The knowledge of multivariate analysis enables clinicians to analyze the result accurately and to design the further research efficiently.

Effects of Multicollinearity in Logit Model (로짓모형에 있어서 다중공선성의 영향에 관한 연구)

  • Ryu, Si-Kyun
    • Journal of Korean Society of Transportation
    • /
    • v.26 no.1
    • /
    • pp.113-126
    • /
    • 2008
  • This research aims to explore the effects of multicollinearity on the reliability and goodness of fit of logit model. To investigate the effects of multicollinearity on the multinominal logit model, numerical experiments are performed. The exploratory variables(attributes of utility functions) which have a certain degree of correlations from (rho=) 0.0 to (rho=) 0.9 are generated and rho-squares and t-statistics which are the indices of goodness of fit and reliability of logit model are traced. From the well designed numerical experiments, following findings are validated : 1) When a new exploratory variable is added, some of rho-squares increase while the others decrease. 2) The higher relations between generic variables lead a logit model worse with respect to goodness of fit. 3) Multicollinearity has a tendency to produce over-evaluated parameters. 4) The reliability of the estimated parameter has a tendency to decrease when the correlations between attributes are high. These results suggest that we have to examine the existence of multicollinearity and perform the proper treatments to diminish multicollinearity when we develop logit model.

Procedure for the Selection of Principal Components in Principal Components Regression (주성분회귀분석에서 주성분선정을 위한 새로운 방법)

  • Kim, Bu-Yong;Shin, Myung-Hee
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.5
    • /
    • pp.967-975
    • /
    • 2010
  • Since the least squares estimation is not appropriate when multicollinearity exists among the regressors of the linear regression model, the principal components regression is used to deal with the multicollinearity problem. This article suggests a new procedure for the selection of suitable principal components. The procedure is based on the condition index instead of the eigenvalue. The principal components corresponding to the indices are removed from the model if any condition indices are larger than the upper limit of the cutoff value. On the other hand, the corresponding principal components are included if any condition indices are smaller than the lower limit. The forward inclusion method is employed to select proper principal components if any condition indices are between the upper limit and the lower limit. The limits are obtained from the linear model which is constructed on the basis of the conjoint analysis. The procedure is evaluated by Monte Carlo simulation in terms of the mean square error of estimator. The simulation results indicate that the proposed procedure is superior to the existing methods.

Parameter Estimation for Multiple Linear Regession Model by OLS and Stepwise (OLS 및 변수선택법에 의한 다중선형회귀모형 매개변수 산정)

  • Kim, Kyung-Tak;Kim, Joo-Hun;Park, Jung-Sool
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.1161-1165
    • /
    • 2006
  • 본 연구는 OLS 및 변수선택법에 의해 통계학적 모형의 매개변수를 산정하여 모형의 적용성을 입증하고 하천 주요지점에 대한 홍수위 예측을 통해 홍수예보 및 예측 업무에 기여코자하는데 연구목적이 있다. 다중선형회귀모형을 구성하기 위한 독립변수는 예보지점의 수위/유출량 자료와 상류지점의 수위/유출량 자료, 그리고 유역의 선행 평균강우량 등의 자료를 독립변수로 하여 통계학적 홍수예측을 위한 다중선형 회귀모형을 각각 구성하여 적합성 여부를 판단하였다. 매개변수 산정은 OLS(Ordinary least square root method)와 변수선택(Stepwise)방법에 의해 산정하였으며, 중랑천 유역의 2002년부터 2005년까지의 수문사상 16개를 선정하여 모형에 적용한 결과 두 매개변수 산정방법 모두 30분에서 90분 예측은 상대적으로 정확한 결과를 나타내었으며, OLS 및 변수선택법에 의한 매개변수 산정결과 변수선택법에 의한 방법이 OLS 방법보다는 상관성이나 효율지수면에서 조금 더 정확한 값을 나타내고 있으나 독립변수의 일관성을 감안한다면 변수선택법보다는 OLS방법에 의한 매개변수 산정이 타당할 것으로 사료된다. 기존의 홍수예보 업무에 활용되고 있는 수문학적 홍수예측 모형인 저류함수법의 여러 매개변수 조정에 의한 홍수위 예측 방법보다는 비교적 간단한 통계적 방법에 의한 홍수위 예측 방법으로 홍수예보의 선행시간 확보가 필수적인 중랑천과 같이 유역면적이 작은 중소하천에서의 홍수예보 업무에 효과적으로 이용 가능할 것으로 사료된다.

  • PDF

A Study of Multiple Linear Regression Model for Schedule Prediction Method about Ship Production Planning (선박 생산계획에 대한 일정 예측방법의 다중선형회귀분석 모형연구)

  • Kang, Tae-Wook;Ock, Young-Sock
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.351-352
    • /
    • 2016
  • 조선소의 생산계획 담당자가 기존 실적 정보를 이용하여 관심 대상인 미래의 생산계획 상황을 보다 쉽게 예측하여 생산계획의 적중률을 높일 수 있도록 할 예정이다. 2006년에서 2016년의 S조선사의 2차 데이터를 이용하여 요인 분석을 하고 다중회귀분석 모형을 설계하여 활용하는 프로세스를 설계한다. 사례 연구를 통해 연구 모형이 적절한지를 검증할 계획이다.

  • PDF

Estimation of Spatio-temporal soil moisture and drought index based on MODIS multi-satellite images (MODIS 다중 위성영상 기반의 토양수분 및 가뭄지수 산정연구)

  • Chung, Jeehun;Kim, Juyeon;Kim, Hyeongseok;Jeong, Daeun;Kim, Seongjoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.446-446
    • /
    • 2022
  • 본 연구에서는 MODIS(MODerate resolution Imaging Spectroradiometer) 다중 위성영상을 기반으로 전국 시공간 토양수분 및 토양수분 기반의 가뭄지수 SWDI(Soil Water Deficit Index)를 산정하였다. 시공간 토양수분의 산정을 위해 입력자료로 MODIS 위성의 지표면온도(Land Surface Temperature, LST), 증발산 및 식생(Enhanced Vegetation Index, EVI; Fraction of Photosynthetically Active Radiation, FPAR; Leaf Area Index, LAI; Normalized Difference Vegetation Index, NDVI) 관련 산출물 자료와 지상 관측자료인 일 단위 강수량 자료를 구축하였다. MODIS 위성영상은 산출물별로 제공되는 QC(Quality Control) 영상을 활용해 보정을 수행하였고, 공간 강수량 자료는 기상청에서 제공하는 전국 92개 지점의 종관기상관측자료를 구축하여 공간보간기법인 역거리가중법을 적용해 생성하였다. 실측 토양수분은 농촌진흥청에서 제공하는 76개 지점의 토양 깊이 10 cm에 설치된 TDR(Time Domain Reflectomerty) 센서에서 측정된 토양수분 자료를 활용하였으며, 토양수분 모의 시 토양 속성을 고려하기 위해 국립농업과학원에서 제공하는 토양도를 구축하여 활용하였다. 토양수분 산정 모형은 다중선형회귀모형(Multiple Linear Regression Model, MLRM)을 활용하였으며, 계절 및 토성에 따른 회귀식을 산정하였다. 회귀식 기반의 토양수분과 토성별 포장용수량 및 영구위조점 값을 이용하여 SWDI를 산정하고, 실제 가뭄 발생 시기 및 지역과의 비교하고자 한다.

  • PDF

Flood risk assessment by multiple regression using hourly precipitation (시강우량 자료 다중회귀분석에 의한 홍수위험 평가)

  • Park, Chang Eon;Kim, Chan Woo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.264-264
    • /
    • 2016
  • 홍수위험의 정도를 표시하기 위한 연구는 다양한 방법으로 진행되어 왔으나, 많은 지역에 수리 및 수문모형을 적용하여 홍수위험을 평가하기에는 매개변수 보정이나 모형의 검정에 한계가 있을 수밖에 없다. 특히, 많은 지역에 대하여 행정구역별로 홍수위험을 평가한다던지, 기후변화에 따른 홍수위험 변화양상을 평가하기 위하여는 더욱 그러하다. 이에 본 연구에서는 기존의 수위관측소에서 관측되어진 유량 자료를 적극 활용하여 시강우량과의 다중회귀분석을 통하여 첨두유량을 예측할 수 있는 회귀방정식을 구축하고 홍수위험을 평가할 수 있도록 시도하였다. 홍수피해는 하천의 유량 증가가 가장 직접적인 원인이 될 수 있으며, 비교적 하천정비가 잘 이루어진 우리나라의 경우는 하천정비 시 설정한 계획홍수량과 호우에 따라 발생되는 첨두유량을 비교하여 홍수피해 발생여부를 판단할 수 있을 것이다. 하천의 첨두유량 값은 복잡한 유역특성이나 수문특성에 의하여 결정되지만, 결국은 시간별 순간 최대강우량의 조합에 의하여 크게 좌우 되는 것으로 판단된다. 본 연구에서는 수도권의 일부 행정구역별 대표 수위관측소를 정하고, 각 지점의 최근 10년 동안의 하천유량 관측자료를 이용하여 단일 호우사상의 1시간, 2시간, 3시간, 5시간, 10시간, 1일, 2일, 3일, 5일, 10일 순간최대강우량과 첨두유량 사이의 다중회귀분석을 실시하여 유의한 통계값을 보이는 자료끼리 회귀방정식을 구성하도록 하였다. 다중회귀분석은 각 하천 지점별로 해당 하천의 수리특성이 일정하게 유지되어진 기간 동안만을 선정하여 분석하였으며, 유량자료 가운데 각 지점에서 관심수위 이상으로 유량이 크게 증가하였던 호우사상만을 사용하였다. 회귀분석 결과, 매우 의미 있는 회귀방정식의 도출이 가능하였는데, 의정부시 신곡교의 경우는 1시간, 10시간, 1일 강우량으로부터, 광주시 경안교 지점의 경우는 3시간, 1일, 10일 강우량으로부터, 양평군 흑천교 지점의 경우는 10시간, 3일 강우량으로부터 각각 첨두유량을 예측할 수 있는 회귀방정식이 높은 유의성을 보이는 것으로 나타나, 유역면적이나 도달시간 등의 유역특성을 어느 정도 반영하고 있는 회귀방정식이 도출된 것으로 판단되었다. 이와 같은 회귀방정식에 의하여 예상되어지는 시간별 강우량 자료를 적용하면 첨두유량을 예측할 수 있으며, 이를 기존 계획홍수량과 비교하여 홍수위험 정도를 적절하게 평가할 수 있을 것으로 판단된다.

  • PDF

Development of a Daily Snowmelt Depth Model using Multiple Linear Regression (다중회귀모형을 활용한 일 단위 융설 깊이 예측 모형 개발)

  • Oh, Yeoung Rok;Lee, Gyumin;Shin, Hyungjin;Jun, Kyung Soo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.374-374
    • /
    • 2021
  • 최근 우리나라에도 대설로 인한 피해가 발생하고 있으며, 피해의 대부분은 강설 발생 이후 남아 있는 적설량이 주된 원인이 되고 있다. 적설량에 대한 예측은 대설피해에 대응하기 위한 중요한 정보이다. 따라서 본 연구에서는 융설량에 영향을 미칠것으로 판단되는 적설량, 기온, 습도, 일사량을 반영하여 일일 융설량을 모의하는 다중회귀모형을 구성하였다. 모형은 2000년부터 2020년까지의 강설 사상을 대상으로 구축하였으며, 2021년에 발생한 광주, 대관령, 목포, 서산, 전주 지역의 강설 사상에 적용하였다. 분석 대상 지역의 평균 적설량은 7.41 cm로 나타났으며, 평균 RMSE는 1.64 cm가 발생하였다. 오차의 원인으로는 적설량이 1 cm 미만 감소했을 경우, 바람이나 승화의 영향이 상대적으로 크게 작용할 수 있으나, 본 연구에 이용된 함수는 바람과 증발산 등이 고려되지 않았다. 또한, 회귀계수 결정에서 급격한 온도 변화를 능동적으로 반영하기 어려워 급상승한 온도나 매우 낮은 온도에 오차가 더 크게 나타난다. 따라서, 본 함수를 통하여 융설 깊이를 예측하기 위해서는 매우 높은 온도나, 매우 낮은 온도에서의 영향을 통제할 수 있는 변수 또는 상수를 추가할 필요가 있는 것으로 판단된다. 또한 초기 강설 당시의 기온과 습도 등에 따라, 눈의 결정이 달라지고, 이에 따라 융설에도 영향을 미칠 수 있다는 점을 이해하여, 초기 적설에 대한 변수도 고려되어야 할 것이다.

  • PDF

Development of Accident Forecasting Models in Freeway Tunnels using Multiple Linear Regression Analysis (다중선형 회귀분석을 이용한 고속도로 터널구간의 교통사고 예측모형 개발)

  • Park, Ju-Hwan;Kim, Sang-Gu
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.11 no.6
    • /
    • pp.145-154
    • /
    • 2012
  • This paper analyzed the characteristics of traffic accidents in all tunnels on nationwide freeways and selected some various independent variables related to accident occurrence in tunnels. The study aims to develop reliable accident forecasting models using the various dependent variables such as the number of accident (no.), no./km, and no./MVK. Finally, reliable multiple linear regression models were proposed in this paper. This study tested the validity verification of developed models through statistics such as $R^2$, F values, multicollinearity, residual analysis. The paper selected the accident forecasting models considering the characteristics of tunnel accidents and two models were finally proposed according to two groups of tunnel length. In the selected models, natural logarithm of ln(no./MVK) is used for the dependent variable and AADT, vertical slope, and tunnel hight are used for the independent variables. The reliability of two models was proved by the comparison analysis between field data and estimating data using RMSE and MAE. These models may be not only effective in evaluating tunnel safety under design and planning phases of tunnel but also useful to reduce traffic accidents in tunnels and to manage the traffic flow of tunnel.