• 제목/요약/키워드: Ridge regression

검색결과 117건 처리시간 0.03초

Mallows의 $C_L$ 통계량을 이용한 수문응답 추정 (Hydrologic Response Estimation Using Mallows' $C_L$ Statistics)

  • 성기원;심명필
    • 한국수자원학회논문집
    • /
    • 제32권4호
    • /
    • pp.437-445
    • /
    • 1999
  • 비모수능형회귀분석법을 이용하여 수문응답을 추정하는 방안에 대하여 연구하였다. 응답을 추정하기 위하여 평균제곱예측오차에 대한 추정량인 CL 통계량을 최소화하는 방법을 적용하였으며 가중행렬은 전통적으로 이용도는 단위행렬과 특수한 형태인 행렬인 Laplacian 행렬을 각각 이용하여 비교하였다. 또한 추정응답의 오차분산을 추정하는 방안에 대한 검토도 실행하였다. 합성자료와 실제자료에 대한 분석 결과 가중행렬과 Laplacian 행렬을 오차분산은 편기 수정된 추정치를 이용하는 것이 좋은 결과를 보여 주었다. 본 연구에서 제시된 절차 및 방법은 수문응답 분리에 있어서 안정적이고 효율적으로 적용될 수 있을 것으로 판단된다.

  • PDF

Nuclear energy, economic growth and CO2 emissions in Pakistan: Evidence from extended STRIPAT model

  • Muhammad Yousaf Raza;Songlin Tang
    • Nuclear Engineering and Technology
    • /
    • 제56권7호
    • /
    • pp.2480-2488
    • /
    • 2024
  • Pakistan is a developing country whose maximum amount of mixed energy is provided by electricity, oil, coal, and gas. The study objective is to analyze the six major social factors to describe the significance of nuclear energy and CO2 emissions at the decisive point coming from income, trade, energy, and urbanization. This study has tried to analyze the impact of different factors (i.e., fossil energy, GDP per capita, overall population, urban population, and merchandise trade) on Pakistan's CO2 emissions using the extended STRIPAT model from 1986 to 2021. Ridge regression has been applied to analyze the parameters due to the multicollinearity problem in the data. The results show that (i) all the factors show significant results on carbon emissions; (ii) population and energy factors are the huge contributors to raising CO2 emissions by 0.15% and 0.16%; however, merchandise and GDP per capita are the least contributing factors by 0.12% and 0.13% due to import/export and income level in Pakistan, and (iii) nuclear energy and substitute overall show a prominent and growing impact on CO2 emissions by 0.16% and 0.15% in Pakistan. Finally, empirical results have wider applications for energy-saving, energy substitution, capital investment, and CO2 emissions mitigation policies in developing countries. Moreover, by investigating renewable energy technologies and renewable energy sources, insights are provided on future CO2 emissions reduction.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

머신러닝 기반 시설재배 딸기 생산량 예측 연구 (A Study on the Prediction of Strawberry Production in Machine Learning Infrastructure)

  • 오한별;임종현;양승원;조용윤;신창선
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.9-16
    • /
    • 2022
  • 최근 농업 현장에서는 빅데이터와 IoT(Internet of Things) 등 기술을 적용하여 디지털농업 스마트팜으로 자동화를 하고 있다. 이러한 스마트팜은 작물의 환경을 측정하고 데이터를 조사하고 가공하여 생산량의 증대와 작물의 품질을 향상하고자 한다. 생산량 예측은 첨단 농업인 스마트팜 디지털 농업에서 중요한 연구로 빅데이터를 활용하여 환경데이터를 분석하고 나아가 생육정보 데이터 품질 관리를 위한 표준화 연구가 필요하다. 본 논문에서는 스마트팜 딸기 농장에서 수집된 환경 및 생산량 데이터를 분석하여 연구하였다. 회귀분석을 기반으로 릿지회귀(Ridge Regression), LightGBM, XGBoost를 사용하여 작물 생산량 예측 모델을 분석하였다. 3가지 모델 중 최적의 모델은 XGBoost로 R2는 82.5%의 설명력을 보였다. 연구 결과 양액흡수량과 환경데이터간의 상관관계를 확인할 수 있었고, 생산량 예측 연구에 대한 유의미한 결과를 얻을 수 있었다. 향후 작물의 생육환경 정보 및 양액의 성분 등 양액흡수량을 연구하여 양액관리를 통해 환경오염 예방 및 양액 절감에 기여할 것으로 기대된다.

OBDII 데이터 기반의 실시간 연료 소비량 예측 모델 연구 (A Modeling of Realtime Fuel Comsumption Prediction Using OBDII Data)

  • 양희은;김도현;최호섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.57-64
    • /
    • 2021
  • 자율주행차 시대가 도래하면서 ECU (Electronic Control Unit)는 점차 고도화되고 있고, 이에 따라 차량에서 정확한 데이터를 추출하고 분석하려는 연구가 다양하게 시도되어 왔다. 그러나 ECU는 차량 제조사별로 상이한 프로토콜을 가지고 있어 상용 단말기로는 정확한 데이터 추출과 분석이 어렵다. 본 연구에서는 정확한 차량 데이터를 추출하기 위하여 전용 펌웨어를 개발하여 차량의 2019년 1월부터 2월의 실제 주행데이터 53,580건의 데이터를 추출하였으며, 20회가 넘는 실제 도로 주행을 통해서 데이터의 정확도를 검증하였다. 이러한 데이터를 바탕으로 실시간 연료 소비량 예측 모델의 정확도를 높이기 위하여 스태킹 앙상블 기법을 이용하였다. 본 연구에서는 베이스 모델로 Ridge, Lasso, XGBoost, LightGBM이 사용되고 메타 모델은 Ridge가 사용되었으며, 예측 성능은 MAE 0.011, RMSE 0.017로 최적의 결과를 보였다.

통계적 예측모형을 활용한 경륜 경기 순위 분석 (Analysis of cycle racing ranking using statistical prediction models)

  • 박가희;박리라;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.25-39
    • /
    • 2017
  • 최근 경륜은 2015년도 기준, 5백만 명 이상의 많은 사람들이 참여하고 2조를 넘어선 매출을 발생시키는 대중적인 레저스포츠로서 자리 잡고 있다. 본 연구의 목적은 다양한 통계적 분석기법을 사용하여 경륜경기의 순위를 예측하고, 순위에 유의한 영향을 미치는 변수들을 파악하는 데에 있다. 다양한 Classification 방법과 Regression 방법들을 적용하여 순위예측모형을 만들고 비교분석하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면, 등급이 강급될수록, 종합득점이 높을수록 순위가 높아지며 반대로 등급이 승급될수록, 번호 4번을 부여받을수록 그리고 최근성적의 순위가 낮을수록 순위가 낮아지는 것을 알 수 있었다. 또한, 선수의 실력과 관련된 연속형 변수들을 각 경기별로 평균값을 빼서 보정한 자료와 원자료를 사용하여 모형을 적합시킨 결과 모든 모형에서 보정된 자료를 사용하였을 때 더 낮은 오분류율을 보였다. 마지막으로 분석에 사용하지 않은 최근 한 달 경기결과를 예측해서 베팅했을 때 모든 경우에 예측률은 높았지만 큰 이익을 거두지 못했는데 그 이유는 낮은 배당률을 가진 경기의 결과만을 잘 예측했기 때문이다.

경제지표를 활용한 다중선형회귀 모델 기반 국제 휘발유 가격 예측 (A study of Predicting International Gasoline Prices based on Multiple Linear Regression with Economic Indicators)

  • 한명은;김지연;이현희;김세인;박민서
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.159-164
    • /
    • 2024
  • 국내 석유 시장은 국제 석유 가격의 변동에 매우 민감하기 때문에 그 변동성에 대한 파악과 대처가 중요하다. 특히, 높은 소비량을 보이는 휘발유의 가격이 어떠한 요인에 인해 변화하는지 명확하게 파악하는 것이 필요하다. 국제 휘발유 가격은 휘발유 수급, 지정학적 사건, 미국 달러화 가치 변동 등 글로벌 요인에 영향을 받는다. 그러나 기존의 연구들은 휘발유의 수급에만 초점에 맞추어 진행하였다는 한계가 존재한다. 본 연구에서는 다양한 머신러닝 기반의 회귀 모델을 활용하여 거시적 경제지표와 국제 휘발유 가격 간의 인과관계를 탐색한다. 첫째, 다양한 세계 경제지표 데이터를 수집한다. 둘째, 데이터 전처리를 진행한다. 셋째, 다중선형회귀, Ridge 회귀, Lasso(Least Absolute Shrinkage and Selection Operator) 회귀 모델을 활용하여 모델링한다. 실험 결과, 테스트 데이터 셋에서 다중선형회귀 모델이 가장 높은 정확도(97.3%)를 보였다. 우리는 국제 휘발유 가격의 예측은 국내 경제 안정성과 에너지 정책 결정에 도움이 될 수 있을 것으로 기대한다.

능형회귀에서의 로버스트한 k의 선택 방법 (Robust selection rules of k in ridge regression)

  • 임용빈
    • 응용통계연구
    • /
    • 제6권2호
    • /
    • pp.371-381
    • /
    • 1993
  • 표준화된 중회귀모형에서 다중공선성(multicollinearity)이 존재할 때, 공선성(collinearity)의 영향을 완화하기 위해서 능형회귀가 사용된다. 반응변수의 예측을 위한 기준으로서 반응변 수의 예측치의 평균제곱합(MSE)을 설명변수의 관심영역 R에서 적분한(IMSE) $J_w(k)$ 기 준이 Lim, Choi & Park(1980)에 의해 소개되었다. $C_k$기준이 설명변수의 관심영역 R상 에서의 가중치 함수인 w(x)가 각각의 자료점에서 등확률 1/n을 갖는 경우의 IMSE 기준인 $J_n(k)$ 기준과 동치라는 관계를 이용함으로 $C_k$ 기준에 대해서 Myers(1986)에 의해 주어진 k의 선택방법 보다 더 합리적이라 기대되는 k의 선택방법이 제시되었다. 다음으로 관심이 있는 모든 기준들에 대해서 상대적으로 효율이 좋은 능형회귀추정량 $\beta(k)$를 선택하기 위해서, 관심이 있는 기준들 간의 가장 나쁜 효율을 최대화한다는 의미에서 MiniMax 원칙을 채택하여 관심이 있는 기준들에 대해서 로버스트한 k의 선택방법을 제시 하였다.

  • PDF

How to identify fake images? : Multiscale methods vs. Sherlock Holmes

  • Park, Minsu;Park, Minjeong;Kim, Donghoh;Lee, Hajeong;Oh, Hee-Seok
    • Communications for Statistical Applications and Methods
    • /
    • 제28권6호
    • /
    • pp.583-594
    • /
    • 2021
  • In this paper, we propose wavelet-based procedures to identify the difference between images, including portraits and handwriting. The proposed methods are based on a novel combination of multiscale methods with a regularization technique. The multiscale method extracts the local characteristics of an image, and the distinct features are obtained through the regularized regression of the local characteristics. The regularized regression approach copes with the high-dimensional problem to build the relation between the local characteristics. Lytle and Yang (2006) introduced the detection method of forged handwriting via wavelets and summary statistics. We expand the scope of their method to the general image and significantly improve the results. We demonstrate the promising empirical evidence of the proposed method through various experiments.

A Comparative Study of Estimation by Analogy using Data Mining Techniques

  • Nagpal, Geeta;Uddin, Moin;Kaur, Arvinder
    • Journal of Information Processing Systems
    • /
    • 제8권4호
    • /
    • pp.621-652
    • /
    • 2012
  • Software Estimations provide an inclusive set of directives for software project developers, project managers, and the management in order to produce more realistic estimates based on deficient, uncertain, and noisy data. A range of estimation models are being explored in the industry, as well as in academia, for research purposes but choosing the best model is quite intricate. Estimation by Analogy (EbA) is a form of case based reasoning, which uses fuzzy logic, grey system theory or machine-learning techniques, etc. for optimization. This research compares the estimation accuracy of some conventional data mining models with a hybrid model. Different data mining models are under consideration, including linear regression models like the ordinary least square and ridge regression, and nonlinear models like neural networks, support vector machines, and multivariate adaptive regression splines, etc. A precise and comprehensible predictive model based on the integration of GRA and regression has been introduced and compared. Empirical results have shown that regression when used with GRA gives outstanding results; indicating that the methodology has great potential and can be used as a candidate approach for software effort estimation.