• Title/Summary/Keyword: 선형회귀 분석

Search Result 1,457, Processing Time 0.027 seconds

Multivariate Statistical Analysis and Prediction for the Flash Points of Binary Systems Using Physical Properties of Pure Substances (순수 성분의 물성 자료를 이용한 2성분계 혼합물의 인화점에 대한 다변량 통계 분석 및 예측)

  • Lee, Bom-Sock;Kim, Sung-Young
    • Journal of the Korean Institute of Gas
    • /
    • v.11 no.3
    • /
    • pp.13-18
    • /
    • 2007
  • The multivariate statistical analysis, using the multiple linear regression(MLR), have been applied to analyze and predict the flash points of binary systems. Prediction for the flash points of flammable substances is important for the examination of the fire and explosion hazards in the chemical process design. In this paper, the flash points are predicted by MLR based on the physical properties of pure substances and the experimental flash points data. The results of regression and prediction by MLR are compared with the values calculated by Raoult's law and Van Laar equation.

  • PDF

A Model for Predicting Horse Racing Ranking by Regression Analysis (회귀 분석을 통한 경마 순위 예측 모형)

  • Hur, Tai-sung;Song, Min Seob;Ko, Dong Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.15-16
    • /
    • 2022
  • 본 논문에서는 국내 합법 사행산업의 가장 큰 비중을 차지하는 경마에 대한 데이터 분석 모델을 제공하여 건전한 국민 여가 스포츠로 인식 개선을 제안한다. 고배당을 강조하는 경마 예측론이 성행하며 경마가 스포츠가 아닌 도박에 가깝다는 부정적 이미지를 개선하고자 부모마의 수득 상금을 이용한 순위 분석 모델을 제공한다. 현재 국내 경마 경기는 서울, 부산, 제주에서 개최되며, 이 중 서울 지역 경마 데이터를 분석 데이터로 하였다. 분석에 이용한 데이터는 2019년 3월부터 2022년 3월까지의 경주 성적, 경주마 정보, 부모마 수득상금을 이용하였다. 분석에는 선형 회귀 모형, 랜덤 포레스트 회귀 모형 (Breiman, 2001)을 이용하였다. 분석은 Python 을 이용하였으며, Python에서 제공하는 다양한 라이브러리를 이용하여 크롤링, 전처리, 분석하였다.

  • PDF

Robust ridge regression for nonlinear mixed effects models with applications to quantitative high throughput screening assay data (비선형 혼합효과모형에서의 로버스트 능형회귀 방법과 정량적 고속 대량 스크리닝 자료에의 응용)

  • Yoo, Jiseon;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.31 no.1
    • /
    • pp.123-137
    • /
    • 2018
  • A nonlinear mixed effects model is mainly used to analyze repeated measurement data in various fields. A nonlinear mixed effects model consists of two stages: the first-stage individual-level model considers intra-individual variation and the second-stage population model considers inter-individual variation. The individual-level model, which is the first stage of the nonlinear mixed effects model, estimates the parameters of the nonlinear regression model. It is the same as the general nonlinear regression model, and usually estimates parameters using the least squares estimation method. However, the least squares estimation method may have a problem that the estimated value of the parameters and standard errors become extremely large if the assumed nonlinear function is not explicitly revealed by the data. In this paper, a new estimation method is proposed to solve this problem by introducing the ridge regression method recently proposed in the nonlinear regression model into the first-stage individual-level model of the nonlinear mixed effects model. The performance of the proposed estimator is compared with the performance with the standard estimator through a simulation study. The proposed methodology is also illustrated using quantitative high throughput screening data obtained from the US National Toxicology Program.

Prediction of BaP and Total PAH in Soil from Pyr Concentration using Regression Analysis (회귀분석을 통한 토양 내 Pyr 농도로부터 BaP와 총 PAH의 예측기법)

  • Lee, Woo-Bum;Kim, Jongo
    • Journal of Korean Society of Environmental Engineers
    • /
    • v.39 no.3
    • /
    • pp.118-123
    • /
    • 2017
  • This study investigated the feasibility of a statistical approach for the prediction of BaP and total PAHs as pyrogenic sources. As results of regression, excellent linear and multiple correlations ($r^2$ > 0.94) were observed between BaP (or ${\Sigma}PAH$) and Pyr concentrations. When a developed prediction equation was applied to other investigations as validation and application studies, outstanding prediction results were obtained. The predictive model showed very good correlation between the measured and calculated ${\Sigma}PAH$. From this equation, Pyr was an apparently important hydrocarbon for the prediction of PAH. This model might provide a potentially useful tool for the calculation of average BaP and ${\Sigma}PAH$ in a certain region without additional tests.

Analysis of the Correlation between Obesity and Individual Health issues and their impact on the National Economy (비만과 개인 건강문제가 미치는 국가 경제의 상관관계 분석)

  • Seong-Kyung Bae;Jai-Soon Baek;Sung-Jin Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.157-160
    • /
    • 2024
  • 비만은 단순히 개인의 게으름의 문제가 아니라 하나의 위험한 질병으로서 치료를 위해 전문가의 도움이 전적으로 필요로 한다. 개인만의 극복해야 하는 문제가 아니라 사회적 문제로 거론되어 국가 차원에서의 규제와 같은 적극적인 도움이 필요하다. 비만으로 생기는 경제적 손실 또한 무시할 수 없다. 의료비용, 생산성 감소, 사회 보건 문제, 질병 예방 비용 등이 있다. 이 연구는 전 연령층을 대상으로 하되, 아시아, 북아메리카, 남아메리카와 같이 대륙별로 근처 나라들의 2009년에서 2019년까지 10년의 비만 지수와 경제지표를 R을 활용한 회귀분석, 상관관계 분석, Pearson 회귀분석으로 비교하여 가치 있는 결과를 찾는 데 있다. 비만의 해결은 개인의 행복뿐만 아니라 국가의 경제 성장 그리고 회복에 큰 핵심적 요소가 된다는 걸 검증하는 연구이다.

  • PDF

An Application of Support Vector Machines to Personal Credit Scoring: Focusing on Financial Institutions in China (Support Vector Machines을 이용한 개인신용평가 : 중국 금융기관을 중심으로)

  • Ding, Xuan-Ze;Lee, Young-Chan
    • Journal of Industrial Convergence
    • /
    • v.16 no.4
    • /
    • pp.33-46
    • /
    • 2018
  • Personal credit scoring is an effective tool for banks to properly guide decision profitably on granting loans. Recently, many classification algorithms and models are used in personal credit scoring. Personal credit scoring technology is usually divided into statistical method and non-statistical method. Statistical method includes linear regression, discriminate analysis, logistic regression, and decision tree, etc. Non-statistical method includes linear programming, neural network, genetic algorithm and support vector machine, etc. But for the development of the credit scoring model, there is no consistent conclusion to be drawn regarding which method is the best. In this paper, we will compare the performance of the most common scoring techniques such as logistic regression, neural network, and support vector machines using personal credit data of the financial institution in China. Specifically, we build three models respectively, classify the customers and compare analysis results. According to the results, support vector machine has better performance than logistic regression and neural networks.

Flood Damage Estimation Using Regional Regression Analysis (지역회귀분석을 이용한 홍수 피해금액 추정)

  • Jang, Ock-Jae;Kim, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2009.05a
    • /
    • pp.74-78
    • /
    • 2009
  • 우리 사회가 발전함에 따라 재해의 위험으로부터도 안전하게 살고자 하는 대중들의 욕구 또한 증가하고 있다. 하지만 최근의 기후변화와 이상홍수의 사례에서 볼 때 현재 우리가 처해 있는 자연재해로부터의 위협은 과거와는 상이하다는 것을 알 수 있다. 이러한 위협에 대처하기 위해서는 우리에게 노출된 재해의 특성을 평가하는 과정이 무엇보다 선행되어져야 한다. 홍수로 인한 피해는 대부분이 인명이나 재산피해가 주를 이루기 때문에 홍수위험도의 평가결과도 발생 가능한 인명이나 재산피해로 표현되는 것이 적절하다고 판단된다. 따라서 본 연구에서는 지역회귀분석을 적용하여 가능 홍수 피해금액을 추산하고, 이를 통해 각 지역별 홍수위험도를 평가하는 방법을 제안하였다. 지역회귀분석은 강우유출모형이나 확률분포모형의 매개변수들을 유역 특성인자들로 표현하기 위해 수문학 분야에서 사용되어져 왔으며 본 연구에서는 이 방법을 홍수 피해금액 추정에 응용하였다. 지역회귀방법의 절차는 먼저 계측지역에서는 홍수 피해금액과 시강우량 자료를 바탕으로 비선형회귀분석을 실시한 후 이 회귀식의 계수를 다시 해당 지역의 인문 사회 경제학적 인자들로 표현하였다. 이러한 방법을 통해 지역적 인자들이 홍수 피해에 미치는 영향을 정량적으로 분석할 수 있었으며 궁극적으로 미계측지역에서도 지역적 인자들을 통해 특정 빈도에 발생 가능한 홍수 피해금액을 추정할 수 있었다. 최종적으로 추정된 홍수 피해금액과 지역 총 자산의 비를 통해 홍수위험지도를 작성하였다. 본 연구결과를 수자원장기종합계획에서 홍수위험도 평가를 위해 사용된 홍수피해잠재능(Potential Flood Damage; PFD)과 비교해 보면 PFD에서는 각 인자들의 가중치 산정에서 전문가의 주관이 개입될 수 있다는 단점이 있었으나 과거 피해금액과의 상관관계를 분석한 본 연구에서는 이러한 단점을 극복할 수 있었다.

  • PDF

Fast Detection of Abnormal Data in IIoT with Segmented Linear Regression (분할 선형 회귀 분선을 통한 IIoT의 빠른 비정상 데이터 탐지)

  • Lee, Tae-Ho;Kim, Min-Woo;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.101-102
    • /
    • 2019
  • 산업용 IoT (IIoT)는 최근들어 제조 시스템의 중요한 구성 요소로 간주된다. IIoT를 통해 시설에서 감지된 데이터를 수집하여 작동 조건을 적절하게 분석하고 처리한다. 여기서 비정상적인 데이터는 전체 시스템의 안전성 및 생산성을 위해 신속하게 탐지되어야한다. 기존 임계 값 기반 방법은 임계 값 미만의 유휴 오류 또는 비정상적인 동작을 감지 할 수 없으므로 IIoT에 적합하지 않다. 본 논문에서는 예측 구간과 우선 순위기반 스케줄링을 이용한 분할 선형 회귀 분석을 기반으로 비정상적인 데이터를 검출하는 새로운 방법을 제안한다. 시뮬레이션 결과 제안한 기법은 비정상적인 데이터 검출 속도에서 임계치, 일반 선형 회귀 또는 FCFS 정책을 사용하는 기존의 기법보다 우수함을 알 수 있었다.

  • PDF

Study of Polymor Properties Prediction Using Nonlinear SEM Based on Gaussian Process Regression (가우시안 프로세서 회귀 기반의 비선형 구조방정식을 활용한 고분자 물성거동 예측 연구)

  • Moon Kyung-Yeol;Park Kun-Wook
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.13 no.1
    • /
    • pp.1-9
    • /
    • 2024
  • In the development and mass production of polymers, there are many uncontrollable variables. Even small changes in chemical composition, structure, and processing conditions can lead to large variations in properties. Therefore, Traditional linear modeling techniques that assume a general environment often produce significant errors when applied to field data. In this study, we propose a new modeling method (GPR-SEM) that combines Structural Equation Modeling (SEM) and Gaussian Process Regression (GPR) to study the Friction-Coefficient and Flexural-Strength properties of Polyacetal resin, an engineering plastic, in order to meet the recent trend of using plastics in industrial drive components. And we also consider the possibility of using it for materials modeling with nonlinearity.

Analysis of Accident Characteristics and Development of Accident Models in the Signalized Intersections of Cheongju and Cheongwon (지방부 신호교차로 사고특성분석 및 모형개발 (청주.청원을 중심으로))

  • Park, Byung-Ho;Yoo, Doo-Seon;Yang, Jeong-Mo;Lee, Young-Min
    • Journal of Korean Society of Transportation
    • /
    • v.26 no.2
    • /
    • pp.35-46
    • /
    • 2008
  • The purposes of this study are to analyze the characteristics and to develop the models of traffic accidents. In pursuing the above, this study gives particular attentions to developing the models(multiple linear, poisson and negative binomial regression) using the data of Cheongju and Cheongwon signalized intersections. The main results analyzed are as follows. First, the accident characteristics of rural area were defined by factor. Second, 4 accident models which are all statistically significant were developed. Finally, such the variables as $X_2$ and $X_{11}$ were evaluated to be specific variables which reflect the characteristics of rural area.