• 제목/요약/키워드: Linear regression models

검색결과 947건 처리시간 0.026초

차우검정을 활용한 선형회귀모형간 유사성 검증 (A Stability Test of the Regression Coefficients for the Linear Models using Chow Test)

  • 이기영;이성관;정소영;허태영
    • 한국ITS학회 논문지
    • /
    • 제16권2호
    • /
    • pp.73-82
    • /
    • 2017
  • 회귀모형은 현실세계 모사를 위해 우리가 흔히 활용하고 있는 통계적 방법이다. 교통분야에서도 계획이나 공학부문에 활발하게 활용되고 있지만 여러 개의 모형이 구축될 경우 개별모형의 유의성 검증에 치중하여, 모형 간의 유사성을 검증하는 단계가 부재했다. 따라서 본 연구에서는 두 선형회귀모형 간의 유사성 확인을 위해 "차우(Chow) 검정"이라는 통계적 검정 방법을 적용하였다. 차우검정은 서로 다른 두 회귀모형에서 산출된 모수의 추정값을 근거로 하여, 두 모형 사이에 어떤 유사성이 존재하는지를 통계적으로 검증하는 기법으로 오래전부터 활용되고 있는 기법이다. 차우검정의 적용성을 확인하기 위해 우선, 우천시 주야간 고속도로 교통데이터를 수집하여 각각의 속도-밀도 회귀모형을 개발하였으며 차우검정을 통해 우천시 주야간 두 모형간의 유사성을 검증함으로써 이러한 통계적 절차가 객관적인 자료분석 과정에서 중요한 역할을 수행할 수 있음을 입증하였다. 본 연구에서는 선형회귀모형들에 대한 차우검정의 적용성을 확인해 보았으며, 향후 비선형 모형간의 유사성 검증 작업이 이어질 수 있을 것으로 기대한다.

Ensemble variable selection using genetic algorithm

  • Seogyoung, Lee;Martin Seunghwan, Yang;Jongkyeong, Kang;Seung Jun, Shin
    • Communications for Statistical Applications and Methods
    • /
    • 제29권6호
    • /
    • pp.629-640
    • /
    • 2022
  • Variable selection is one of the most crucial tasks in supervised learning, such as regression and classification. The best subset selection is straightforward and optimal but not practically applicable unless the number of predictors is small. In this article, we propose directly solving the best subset selection via the genetic algorithm (GA), a popular stochastic optimization algorithm based on the principle of Darwinian evolution. To further improve the variable selection performance, we propose to run multiple GA to solve the best subset selection and then synthesize the results, which we call ensemble GA (EGA). The EGA significantly improves variable selection performance. In addition, the proposed method is essentially the best subset selection and hence applicable to a variety of models with different selection criteria. We compare the proposed EGA to existing variable selection methods under various models, including linear regression, Poisson regression, and Cox regression for survival data. Both simulation and real data analysis demonstrate the promising performance of the proposed method.

기계학습 기반의 가스폭발위험범위 예측모델에 관한 연구 (A Study on Predictive Models based on the Machine Learning for Evaluating the Extent of Hazardous Zone of Explosive Gases)

  • 정용재;이창준
    • Korean Chemical Engineering Research
    • /
    • 제58권2호
    • /
    • pp.248-256
    • /
    • 2020
  • 본 연구에서는 폭발위험장소의 방폭설비 설치를 위해 필요한 가스폭발위험범위 예측모델 개발을 수행하였다. 이를 위해 12개의 가연성가스에 대한 1,200개의 폭발위험범위 데이터를 생성하였다. 가스폭발위험범위를 출력변수로 설정하였고 데이터 생성과정에서 필요한 12개의 변수를 입력변수로 설정하였다. 다중 회귀, 주성분 회귀, 인공신경망 기법을 이용해 예측모델을 개발하였다. 각각 모델의 예측 성능을 비교한 결과, 평균절대퍼센트오차(MAPE)는 각각 44.2%, 49.3%, 5.7%이고 평균제곱근오차(RMSE)는 1.389 m, 1.602 m, 0.203 m로 나타났다. 결과를 통해 인공신경망이 가장 우수한 성능을 보여주었고 가스폭발위험범위 예측을 위한 최적 모델이라는 것을 확인하였다.

상대오차예측을 이용한 자동차 보험의 손해액 예측: 패널자료를 이용한 연구 (Predicting claim size in the auto insurance with relative error: a panel data approach)

  • 박흥선
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.697-710
    • /
    • 2021
  • 상대오차를 이용한 예측법은 상대오차(혹은 퍼센트오차)가 중요시되는 분야, 특히 계량경제학이나 소프트웨어 엔지니어링, 또는 정부기관 공식통계 부분에서 기존 예측방법 외에 선호되는 예측방법이다. 그 동안 상대오차를 이용한 예측법은 선형 혹은 비선형 회귀분석 뿐 아니라, 커널회귀를 이용한 비모수 회귀모형, 그리고 정상시계열분석에 이르기까지 그 범위가 확장되어 왔다. 그러나, 지금까지의 분석은 고정효과(fixed effect)만을 고려한 것이어서 임의효과(random effect)에 관한 상대오차 예측법에 대한 확장이 필요하였다. 본 논문의 목적은 상대오차예측법을 일반화선형혼합모형(GLMM)에 속한 감마회귀(gamma regression), 로그정규회귀(lognormal regression), 그리고 역가우스회귀(inverse gaussian regression)의 패널자료(panel data)에 적용시키는데 있다. 이를 위해 실제 자동차 보험회사의 손해액 자료를 사용하였고, 최량예측량과 최량상대오차예측량을 각각 적용-비교해 보았다.

Developed multiple linear regression model using genetic algorithm for predicting top-bead width in GMA welding process

  • ;김일수;손준식;서주환
    • 대한용접접합학회:학술대회논문집
    • /
    • 대한용접접합학회 2006년 추계학술발표대회 개요집
    • /
    • pp.271-273
    • /
    • 2006
  • This paper focuses on the developed empirical models for the prediction on top-bead width in GMA(Gas Metal Arc) welding process. Three empirical models have been developed: linear, curvilinear and an intelligent model. Regression analysis was employed fur optimization of the coefficients of linear and curvilinear model, while Genetic Algorithm(GA) was utilized to estimate the coefficients of intelligent model. Not only the fitting of these models were checked, but also the prediction on top-bead width was carried out. ANOVA analysis and contour plots were respectively employed to represent main and interaction effects between process parameters on top-bead width.

  • PDF

On study for change point regression problems using a difference-based regression model

  • Park, Jong Suk;Park, Chun Gun;Lee, Kyeong Eun
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.539-556
    • /
    • 2019
  • This paper derive a method to solve change point regression problems via a process for obtaining consequential results using properties of a difference-based intercept estimator first introduced by Park and Kim (Communications in Statistics - Theory Methods, 2019) for outlier detection in multiple linear regression models. We describe the statistical properties of the difference-based regression model in a piecewise simple linear regression model and then propose an efficient algorithm for change point detection. We illustrate the merits of our proposed method in the light of comparison with several existing methods under simulation studies and real data analysis. This methodology is quite valuable, "no matter what regression lines" and "no matter what the number of change points".

전기 가격 예측을 위한 맵리듀스 기반의 로컬 단위 선형회귀 모델 (MapReduce-based Localized Linear Regression for Electricity Price Forecasting)

  • 한진주;이인규;온병원
    • 전기학회논문지P
    • /
    • 제67권4호
    • /
    • pp.183-190
    • /
    • 2018
  • Predicting accurate electricity prices is an important task in the electricity trading market. To address the electricity price forecasting problem, various approaches have been proposed so far and it is known that linear regression-based approaches are the best. However, the use of such linear regression-based methods is limited due to low accuracy and performance. In traditional linear regression methods, it is not practical to find a nonlinear regression model that explains the training data well. If the training data is complex (i.e., small-sized individual data and large-sized features), it is difficult to find the polynomial function with n terms as the model that fits to the training data. On the other hand, as a linear regression model approximating a nonlinear regression model is used, the accuracy of the model drops considerably because it does not accurately reflect the characteristics of the training data. To cope with this problem, we propose a new electricity price forecasting method that divides the entire dataset to multiple split datasets and find the best linear regression models, each of which is the optimal model in each dataset. Meanwhile, to improve the performance of the proposed method, we modify the proposed localized linear regression method in the map and reduce way that is a framework for parallel processing data stored in a Hadoop distributed file system. Our experimental results show that the proposed model outperforms the existing linear regression model. Specifically, the accuracy of the proposed method is improved by 45% and the performance is faster 5 times than the existing linear regression-based model.

A Study on Detection of Outliers and Influential Observations in Linear Models

  • Kang, Eun M.;Park, Sung H.
    • 품질경영학회지
    • /
    • 제16권2호
    • /
    • pp.18-33
    • /
    • 1988
  • A new diagnostic statistic for detecting outliers and influential observations in linear models is suggested and studied in this paper. The proposed statistic is a weighted sum of two measures ; one is for detecting outliers and the other is for detecting influential ovservations. The merit of this statistic is that it is possible to distinguish outliers from influential observations. This statistic can be used for not only regression models but also factorial design models. A Monte Carlo simulation study is reported to suggest critical values for detecting outliers and influential observations for simple regression models when the number of observations is 11. 21, 31, 41 or 51.

  • PDF

다중선형 회귀분석을 이용한 고속도로 터널구간의 교통사고 예측모형 개발 (Development of Accident Forecasting Models in Freeway Tunnels using Multiple Linear Regression Analysis)

  • 박주환;김상구
    • 한국ITS학회 논문지
    • /
    • 제11권6호
    • /
    • pp.145-154
    • /
    • 2012
  • 본 논문은 고속도로 터널구간을 대상으로 교통사고특성을 다각적으로 분석하여 다양한 독립변수를 선정하고 종속변수를 건, 건/km, 건/백만대km로 다양화하여 다중선형회귀모형을 개발하였다. 그리고 개발된 모형들은 상호 비교 검토하여 최종적으로 교통사고영향요인으로 구성된 신뢰성 있는 교통사고예측모형을 결정하였다. 교통사고예측모형은 모형의 $R^2$, F값 등 검정통계량 수준, 다중공선성, 잔차분석 등 모형검증과정이 수행되었고 터널구간의 교통사고특성 반영여부 등을 검토하여 최종적으로 터널길이에 따라 총 2개의 모형을 선정하였다. 선정된 종속변수는 ln(건/백만대km)이며, 독립 변수는 연평균일교통량(AADT), 종단구배, 터널높이로 구성되었다. 추정모형은 RMSE, MAE를 이용하여 예측한 값과 실제 관측값과의 차이를 분석하여 터널구간의 교통사고를 설명하는데 적합한 모형으로 파악되었다.

Clustering Observations for Detecting Multiple Outliers in Regression Models

  • Seo, Han-Son;Yoon, Min
    • 응용통계연구
    • /
    • 제25권3호
    • /
    • pp.503-512
    • /
    • 2012
  • Detecting outliers in a linear regression model eventually fails when similar observations are classified differently in a sequential process. In such circumstances, identifying clusters and applying certain methods to the clustered data can prevent a failure to detect outliers and is computationally efficient due to the reduction of data. In this paper, we suggest to implement a clustering procedure for this purpose and provide examples that illustrate the suggested procedure applied to the Hadi-Simonoff (1993) method, reverse Hadi-Simonoff method, and Gentleman-Wilk (1975) method.