• Title/Summary/Keyword: 회귀수

Search Result 7,997, Processing Time 0.032 seconds

Generally non-linear regression model containing standardized lift for association number estimation (연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.3
    • /
    • pp.629-638
    • /
    • 2016
  • Among data mining techniques, the association rule is one of the most used in the real fields because it clearly displays the relationship between two or more items in large databases by quantifying the relationship between the items. There are three primary quality measures for association rule; support, confidence, and lift. We evaluate association rules using these measures. The approach taken in the previous literatures as to estimation of association rule number has been one of a determination function method or a regression modeling approach. In this paper, we proposed a few of non-linear regression equations useful in estimating the number of rules and also evaluated the estimated association rules using the quality measures. Furthermore we assessed their usefulness as compared to conventional regression models using the values of regression coefficients, F statistics, adjusted coefficients of determination and variation inflation factor.

Procedure for the Selection of Principal Components in Principal Components Regression (주성분회귀분석에서 주성분선정을 위한 새로운 방법)

  • Kim, Bu-Yong;Shin, Myung-Hee
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.5
    • /
    • pp.967-975
    • /
    • 2010
  • Since the least squares estimation is not appropriate when multicollinearity exists among the regressors of the linear regression model, the principal components regression is used to deal with the multicollinearity problem. This article suggests a new procedure for the selection of suitable principal components. The procedure is based on the condition index instead of the eigenvalue. The principal components corresponding to the indices are removed from the model if any condition indices are larger than the upper limit of the cutoff value. On the other hand, the corresponding principal components are included if any condition indices are smaller than the lower limit. The forward inclusion method is employed to select proper principal components if any condition indices are between the upper limit and the lower limit. The limits are obtained from the linear model which is constructed on the basis of the conjoint analysis. The procedure is evaluated by Monte Carlo simulation in terms of the mean square error of estimator. The simulation results indicate that the proposed procedure is superior to the existing methods.

An Outlier Data Analysis using Support Vector Regression (Support Vector Regression을 이용한 이상치 데이터분석)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.6
    • /
    • pp.876-880
    • /
    • 2008
  • Outliers are the observations which are very larger or smaller than most observations in the given data set. These are shown by some sources. The result of the analysis with outliers may be depended on them. In general, we do data analysis after removing outliers. But, in data mining applications such as fraud detection and intrusion detection, outliers are included in training data because they have crucial information. In regression models, simple and multiple regression models need to eliminate outliers from given training data by standadized and studentized residuals to construct good model. In this paper, we use support vector regression(SVR) based on statistical teaming theory to analyze data with outliers in regression. We verify the improved performance of our work by the experiment using synthetic data sets.

An Empirical Study on the Estimation of Housing Sales Price using Spatiotemporal Autoregressive Model (시공간자기회귀(STAR)모형을 이용한 부동산 가격 추정에 관한 연구)

  • Chun, Hae Jung;Park, Heon Soo
    • Korea Real Estate Review
    • /
    • v.24 no.1
    • /
    • pp.7-14
    • /
    • 2014
  • This study, as the temporal and spatial data for the real price apartment in Seoul from January 2006 to June 2013, empirically compared and analyzed the estimation result of apartment price using OLS by hedonic price model for the problem of space-time correlation, temporal autoregressive model (TAR) considering temporal effect, spatial autoregressive model (SAR) spatial effect and spatiotemporal autoregressive model (STAR) spatiotemporal effect. As a result, the adjusted R-square of STAR model was increased by 10% compared that of OLS model while the root mean squares error (RMSE) was decreased by 18%. Considering temporal and spatial effect, it is observed that the estimation of apartment price is more correct than the existing model. As the result of analyzing STAR model, the apartment price is affected as follows; area for apartment(-), years of apartment(-), dummy of low-rise(-), individual heating (-), city gas(-), dummy of reconstruction(+), stairs(+), size of complex(+). The results of other analysis method were the same. When estimating the price of real estate using STAR model, the government officials can improve policy efficiency and make reasonable investment based on the objective information by grasping trend of real estate market accurately.

Development of a regressive prediction method of solute transport in rivers based on relation between breakthrough curve and travel distance (하천에서 농도곡선-유하거리 상관성 기반 회귀적 물질혼합 예측 기법)

  • Kim, Byunguk;Seo, Il Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.45-45
    • /
    • 2022
  • 산업화에 따른 화학물질 사용량의 증가는 담수로의 유해화학물질 유출사고의 위험을 증가시키며, 이러한 사고는 하천수 수질과 수환경 생태계에 심각한 위해와 손상을 야기한다. 이러한 수질사고 발생시 신속 대응을 위해, 하천에 유입된 물질의 거동을 신속하게 예측하는 것이 필요하며 이 경우 1차원 추적모형이 주로 사용된다. 1차원 물질혼합 모형은 하천을 하나의 유선으로 보며, 복잡한 하천흐름의 시스템을 현상학적으로 해석하고, 오염물질의 이송 및 혼합 메카니즘을 모델 매개변수에 반영하여 모형화한다. 이러한 매개변수들은 직접적으로 측정하기 어려우며, 이론에 기반한 매개변수 산정 기법이 구축되지 않은 실정이다. 따라서 대부분의 연구에서는 추적자 실험을 실시하여 유한한 하천구간에서 추적자의 시간-농도곡선(Breakthrough curve, BTC)을 취득하고, 이를 통하여 대상 구간의 매개변수를 역산하는 최적화 기법에 의존하고 있다. 하지만, 모든 하천구간에 대하여 추적자 실험을 수행하여 데이터를 확보하는 것이 어렵기 때문에 최적화 기법의 적용성에 한계가 있다. 본 연구는 흐름정보가 제공되지 않은 미계측 하천구간에서 BTC를 신속하게 예측할 수 있는 회귀모형을 구축하는 것을 목표로 한다. 국내 하천에서 수행한 4회의 추적자 실험으로부터 취득한 28개 구간 케이스의 데이터에 대하여 농도곡선 전처리를 수행하고 14개의 통계적 특징을 추출하였으며, 계측된 흐름특성과의 상관관계를 분석하였다. 분석 결과, 대상 구간에서의 BTC의 변화가 추적자의 유하거리에 매우 높은 상관관계를 보였으며, 이를 이용하여 회귀모형을 제시하였다. 제안된 회귀모형을 적용하여 하류의 지점에서의 BTC를 예측하였으며, 1차원 이송-분산 방정식과 하천저장대모형을 활용한 예측결과와 비교하여 검증하였다. 그 결과, BTC의 변화특성을 활용한 회귀적 예측이 하천 지형 및 흐름의 변동성이 작은 구간에서 1차원 혼합모형들을 이용한 예측보다 더 높은 정확도를 보였으며, 이러한 장점은 장거리 예측에서 더 분명하게 나타났다.

  • PDF

A study of statistical analysis method of monitoring data for freshwater lake water quality management (담수호 수질관리를 위한 측정자료의 통계적 분석방법 연구)

  • Chegal, Sundong;Kim, Jin
    • Journal of Korea Water Resources Association
    • /
    • v.57 no.1
    • /
    • pp.9-19
    • /
    • 2024
  • As using public monitoring data, analysing a trends of water quality change, establishing a criteria to determine abnormal status and constructing a regression model that can predict Chlorophyll-a, an indicator of eutrophication, was studied. Accordingly, the three freshwater lakes were selected, approximately 20 years of water quality monitoring data were analyzed for periodic changes in water quality each year using regression analysis, and a method for determining abnormalities was presented by the standard deviation at confidence level 95%. By calculating the temporal change rate of Chlorophyll-a from irregular observed data, analyzing correlations between the rate and other water quality items, and constructing regression models, a method to predict changes in Chlorophyll-a was presented. The results of this study are expected to contribute to freshwater lake water quality management as an approximate water quality prediction method using the statistical model.

Generating Korean Energy Contours Using Vector-regression Tree (벡터 회귀 트리를 이용한 한국어 에너지 궤적 생성)

  • 이상호;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.4
    • /
    • pp.323-328
    • /
    • 2003
  • This study describes an energy contour generation method for Korean n systems. We propose a vector-regression tree, which is a vector version of a scalar regression tree. A vector-regression tree predicts a response vector for an unknown feature vector. In our study, the tree yields a vector containing ten sampled energy values for each phone. After collecting 500 sentences and its corresponding speech corpus, we trained trees on 300 sentences and tested them on 200 sentences. We construct a bagged tree and a born again one to improve the performance of contour prediction. In the experiment, we got a 0.803 correlation coefficient for the observed and predicted energy values.

Comparison of Bias Correction Methods for the Rare Event Logistic Regression (희귀 사건 로지스틱 회귀분석을 위한 편의 수정 방법 비교 연구)

  • Kim, Hyungwoo;Ko, Taeseok;Park, No-Wook;Lee, Woojoo
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.2
    • /
    • pp.277-290
    • /
    • 2014
  • We analyzed binary landslide data from the Boeun area with logistic regression. Since the number of landslide occurrences is only 9 out of 5000 observations, this can be regarded as a rare event data. The main issue of logistic regression with the rare event data is a serious bias problem in regression coefficient estimates. Two bias correction methods were proposed before and we quantitatively compared them via simulation. Firth (1993)'s approach outperformed and provided the most stable results for analyzing the rare-event binary data.

Estimating Automobile Insurance Premiums Based on Time Series Regression (시계열 회귀모형에 근거한 자동차 보험료 추정)

  • Kim, Yeong-Hwa;Park, Wonseo
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.2
    • /
    • pp.237-252
    • /
    • 2013
  • An estimation model for premiums and components is essential to determine reasonable insurance premiums. In this study, we introduce diverse models for the estimation of property damage premiums(premium, depth and frequency) that include a regression model using a dummy variable, additive independent variable model, autoregressive error model, seasonal ARIMA model and intervention model. In addition, the actual property damage premium data was used to estimate the premium, depth and frequency for each model. The estimation results of the models are comparatively examined by comparing the RMSE(Root Mean Squared Errors) of estimates and actual data. Based on real data analysis, we found that the autoregressive error model showed the best performance.

Simulating Inflow to Busa Estuary Reservoir Considered Outflows from Boryeong Dam (보령호 방류량을 고려한 부사호 유입량 모의)

  • Noh, Jae-Kyoung;Lee, Jae-Nam
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.368-368
    • /
    • 2012
  • 부사호는 당초 유역면적이 $288km^2$로 이 중에서 상류 유역에 건설된 보령댐 유역면적 $163.6km^2$(57%)가 제외됨에 따라 부사호로 유입량이 급격히 줄어들어 약간의 가뭄에도 수질악화가 반복되고 있다. 부사호의 합리적인 용수 수급 관리를 위해 정확한 부사호 유입량의 추정은 절실하다. 부사호 유입량은 보령호 방류량과 부사호 지류 유역 유입량으로 구성되며, 보령호 방류량은 소수력 발전용수, 관개용수, 하천유지용수, 홍수조절 방류량, 월류량으로 구성된다. 부사호 지류 유역으로부터 자연유량에서 하천에서 취수한 공업용수를 공급하고, 웅천읍의 생활용수 $1,164m^3$/일로부터 회귀수가 유입되고, 보령댐 수혜답 1039.5 ha에 관개용수를 공급하고 회귀수가 유입되고, 부사호에서 양수하여 공급한 부사 유역 수혜답 1,141 ha의 회귀수가 유입되고, 6개 저수지 수혜답 396.5 ha의 회귀수가 유입되는 등 지류 유입량의 구성은 매우 복잡하다. 하천에서 취수하여 공급하는 공업용수는 서해화력 5천 $m^3$/일, 보령화력 15천 $m^3$/일로 구성된다. ONE (One parameter New Exponential) 모형을 근간으로 유입량 모형을 구성하였고, 보령댐 자료로 매개변수를 결정하여, 1966~2011년의 부사호 일 유입량을 모의한 결과를 요약하면 다음과 같다. 첫째, 유역면적 $124.4km^2$인 부사호의 지류 유입량과 보령댐 방류량을 고려한 부사호 유입량 자료로부터 유황을 분석한 결과는 연평균하여 풍수량은 2.1 mm/d, $3.083m^3/s$, 평수량은 0.89mm/d, $1.280m^3/s$, 저수량은 0.48 mm/d, $0.695m^3/s$, 갈수량은 0.30 mm/d, $0.428m^3/s$였으며, 연 유입량은 127.23백만 $m^3$에 이르렀다. 둘째, 유역면적 $288km^2$인 보령호 유역의 포함한 부사호의 자연 유입량 자료로부터 즉 보령댐이 없는 경우 유황을 분석한 결과는 연평균하여 풍수량은 1.4 mm/d, $4.599m^3/s$, 평수량은 0.51 mm/d, $1.689m^3/s$, 저수량은 0.20 mm/d, $0.664m^3/s$, 갈수량은 0.06 mm/d, $0.204m^3/s$, 연 유입량은 197.00백만 $m^3$에 이르렀다. 셋째, 보령호가 있는 경우와 없는 경우 유황을 비교하면 있는 경우에서 부사호의 유입량은 고수위의 유량은 감소하고, 저수위의 유량은 증가하는 전형적 상류에 위치한 댐의 저류효과 영향을 여실히 나타내고 있었다. 넷째, 한국하천 유황곡선식에 의한 유역면적 $288km^2$인 부사호 유입량의 풍수량은 1.29 mm/d, $4.292m^3/s$, 평수량은 0.59 mm/d, $1.964m^3/s$, 저수량은 0.33 mm/d, $1.093m^3/s$, 갈수량은 0.13mm/d, $0.424m^3$이르렀다. 결론하면, 보령댐이 있는 경우 연 유입량은 70백만 $m^3$ 감소하였으나, 평갈수기 유입량은 증가하였다.

  • PDF