• Title/Summary/Keyword: 회귀 모델 최적화

Search Result 141, Processing Time 0.024 seconds

Predictive Optimization Adjusted With Pseudo Data From A Missing Data Imputation Technique (결측 데이터 보정법에 의한 의사 데이터로 조정된 예측 최적화 방법)

  • Kim, Jeong-Woo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.20 no.2
    • /
    • pp.200-209
    • /
    • 2019
  • When forecasting future values, a model estimated after minimizing training errors can yield test errors higher than the training errors. This result is the over-fitting problem caused by an increase in model complexity when the model is focused only on a given dataset. Some regularization and resampling methods have been introduced to reduce test errors by alleviating this problem but have been designed for use with only a given dataset. In this paper, we propose a new optimization approach to reduce test errors by transforming a test error minimization problem into a training error minimization problem. To carry out this transformation, we needed additional data for the given dataset, termed pseudo data. To make proper use of pseudo data, we used three types of missing data imputation techniques. As an optimization tool, we chose the least squares method and combined it with an extra pseudo data instance. Furthermore, we present the numerical results supporting our proposed approach, which resulted in less test errors than the ordinary least squares method.

Development of Approximate Cost Estimate Model for Aqueduct Bridges Restoration - Focusing on Comparison between Regression Analysis and Case-Based Reasoning - (수로교 개보수를 위한 개략공사비 산정 모델 개발 - 회귀분석과 사례기반추론의 비교를 중심으로 -)

  • Jeon, Geon Yeong;Cho, Jae Yong;Huh, Young
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.33 no.4
    • /
    • pp.1693-1705
    • /
    • 2013
  • To restore old aqueduct in Korea which is a irrigation bridge to supply water in paddy field area, it is needed to estimate approximate costs of restoration because the basic design for estimation of construction costs is often ruled out in current system. In this paper, estimating models of construction costs were developed on the basis of performance data for restoration of RC aqueduct bridges since 2003. The regression analysis (RA) model and case-based reasoning (CBR) model for the estimation of construction costs were developed respectively. Error rate of simple RA model was lower than that of multiple RA model. CBR model using genetic algorithm (GA) has been applied in the estimation of construction costs. In the model three factors like attribute weight, attribute deviation and rank of case similarity were optimized. Especially, error rate of estimated construction costs decreased since limit ranges of the attribute weights were applied. The results showed that error rates between RA model and CBR models were inconsiderable statistically. It is expected that the proposed estimating method of approximate costs of aqueduct restoration will be utilized to support quick decision making in phased rehabilitation project.

Symbolic regression based on parallel Genetic Programming (병렬 유전자 프로그래밍을 이용한 Symbolic Regression)

  • Kim, Chansoo;Han, Keunhee
    • Journal of Digital Convergence
    • /
    • v.18 no.12
    • /
    • pp.481-488
    • /
    • 2020
  • Symbolic regression is an analysis method that directly generates a function that can explain the relationsip between dependent and independent variables for a given data in regression analysis. Genetic Programming is the leading technology of research in this field. It has the advantage of being able to directly derive a model that can be interpreted compared to other regression analysis algorithms that seek to optimize parameters from a fixed model. In this study, we propse a symbolic regression algorithm using parallel genetic programming based on a coarse grained parallel model, and apply the proposed algorithm to PMLB data to analyze the effectiveness of the algorithm.

Optimization of Sensor Data Window Size for Deep Learning Regression Model (딥러닝 회귀 모델 개발을 위한 센서 데이터 윈도우 사이즈 최적화 기법)

  • Choi, Min-Seo;Yoo, Dong-Yeon;Lee, Jung-Won
    • Annual Conference of KIPS
    • /
    • 2022.05a
    • /
    • pp.610-613
    • /
    • 2022
  • 센서 데이터의 중요성이 커지면서 센서 데이터 처리 연구의 수요가 증가하고 있다. 센서 데이터 기반의 딥러닝 모델 개발 시, 센서 데이터 단일 값에 의한 출력이 아닌 시계열적인 특성을 반영하여 연속적인 데이터 간의 연관성을 파악할 수 있는 슬라이딩 윈도우 기법을 통해 효율적으로 데이터를 분석하고 처리할 수 있다. 하지만, 기존의 방법들은 학습 성능(학습 시간 및 모델 성능)에 미치는 영향을 평가하는 기준 없이 입력 데이터의 윈도우 사이즈를 임의로 설정하여 데이터를 처리해 왔다. 따라서, 본 논문은 학습 시간과 모델 성능을 기준으로 센서 데이터의 윈도우 사이즈 최적화 기법을 제안한다. 제안한 방법은 전류를 이용하여 스위치와 다이오드 온도를 추정하는 가상 센서(virtual sensor) 실험 테스트베드에 적용하여, 학습 시간 중심으로는 5%의 윈도우 사이즈를, 모델 성능 중심으로는 R2 SCORE 의 값을 0.9295 로 갖는 8%의 윈도우 사이즈가 최적으로 도출되었다.

Optimization of Shape Descriptor for Comparability Assessment of Protein Structure (지역적/전역적 형태기술자 최적화를 통한 단백질 구조 동등성 평가)

  • Suh, Jung-Keun;Chun, Sung-Hwan;Choi, Yoo-Joo
    • Annual Conference of KIPS
    • /
    • 2019.05a
    • /
    • pp.631-634
    • /
    • 2019
  • 단백질의 구조적 동등성을 평가를 위한 형태 기반의 기술자에 대한 연구는 제한적으로 이루어지고 있으며 대부분 지역적 특성 값으로 표현된 지역적 접근 방법이 다수를 이루고 있다. 지역적 특성과 전역적 특성을 포함하는 형태기술자의 경우 각 특성들이 동등한 중요도로 결합되어 있다. 본 연구에서는 선형 회귀분석을 적용하여 각 특성에 대한 중요도를 최적화하여 형태기술자를 재정의 하였다. 최적화된 형태기술자를 단백질의약품인 인슐린 모델에 적용하여 구조적 동등성을 평가할 수 있는 방법론을 제시하였다. 최적화된 형태기술자는 동일한 그룹에 속한 인간 인슐린 단백질 모델과 지역적으로 다른 구조를 가지는 인슐린 아날로그 그룹을 명확히 구분할 수 있음을 확인하였고 이러한 성능은 이전 연구의 형태기술자와 3D 저니크 기술자보다 더 좋은 성능을 보였다. 또한 제안한 방법은 고해상도 단백질 3차 구조 정보를 활용하여 유사성을 판별한 RMSD 방법과 유사하게 서로 다른 표면 구조를 가지는 단백질을 구별할 수 있음을 확인하였다. 이러한 결과로부터 본 연구에서 제시하는 형태기술자 및 최적화된 동등성 평가 함수는 SAXS 분석과 같이 저해상도 단백질 표면 모델을 확보할 수 있는 분석에 적용하여 단백질의 구조적 동등성을 판별할 수 있는 기반을 제공할 수 있을 것으로 판단된다.

Comparison of Sampling and Estimation Methods for Economic Optimization of Cumene Production Process (쿠멘 생산 공정의 경제성 최적화를 위한 샘플링 및 추정법의 비교)

  • Baek, Jong-Bae;Lee, Gibaek
    • Korean Chemical Engineering Research
    • /
    • v.52 no.5
    • /
    • pp.564-573
    • /
    • 2014
  • Economic optimization of cumene manufacturing process to produce cumene from benzene and propylene was studied. The chosen objective function was the operational profit per year that subtracted capital cost, utility cost, and reactants cost from product revenue and other benefit. The number of design variables of the optimization are 6. Matlab connected to and controlled Unisim Design to calculate operational profit with the given design variables. As the first step of the optimization, design variable points was sampled and operational profit was calculated by using Unisim Design. By using the sampled data, the estimation model to calculate the operational profit was constructed, and the optimization was performed on the estimation model. This study compared second order polynomial and support vector regression as the estimation method. As the sampling method, central composite design was compared with Hammersley sequence sampling. The optimization results showed that support vector regression and Hammersley sequence sampling were superior than second order polynomial and central composite design, respectively. The optimized operational profit was 17.96 MM$ per year, which was 12% higher than 16.04 MM$ of base case.

Prediction Model for Specific Cutting Energy of Pick Cutters Based on Gene Expression Programming and Particle Swarm Optimization (유전자 프로그래밍과 개체군집최적화를 이용한 픽 커터의 절삭비에너지 예측모델)

  • Hojjati, Shahabedin;Jeong, Hoyoung;Jeon, Seokwon
    • Tunnel and Underground Space
    • /
    • v.28 no.6
    • /
    • pp.651-669
    • /
    • 2018
  • This study suggests the prediction model to estimate the specific energy of a pick cutter using a gene expression programming (GEP) and particle swarm optimization (PSO). Estimating the performance of mechanical excavators is of crucial importance in early design stage of tunnelling projects, and the specific energy (SE) based approach serves as a standard performance prediction procedure that is applicable to all excavation machines. The purpose of this research, is to investigate the relationship between UCS and BTS, penetration depth, cut spacing, and SE. A total of 46 full-scale linear cutting test results using pick cutters and different values of depth of cut and cut spacing on various rock types was collected from the previous study for the analysis. The Mean Squared Error (MSE) associated with the conventional Multiple Linear Regression (MLR) method is more than two times larger than the MSE generated by GEP-PSO algorithm. The $R^2$ value associated with the GEP-PSO algorithm, is about 0.13 higher than the $R^2$ associated with MLR.

A Study on Efficient Machine Learning Method Using Random Search and Genetic Algorithm Search (랜덤 탐색과 유전 알고리즘 탐색을 이용한 효율적 기계학습 방법 연구)

  • Lee, Kyung-Tae;Kwon, Young-Keun
    • Annual Conference of KIPS
    • /
    • 2020.05a
    • /
    • pp.494-496
    • /
    • 2020
  • 기계학습 모델을 이용한 분류 및 회귀 문제해결에는 다양한 전처리 알고리즘 및 기계학습 모델이 활용된다. 하지만 합리적인 성능을 위해서는 주어진 데이터에 따라 적절한 알고리즘 조합에 대한 탐색 및 최적화 과정이 펄수적이다. 본 논문에서는 최적의 알고리즘 조합을 탐색하는 방법 중 랜덤 탐색과 유전 알고리즘 탐색 방법을 구현하고 8가지 데이터에 대한 성능 비교를 통해 여러 기계학습 모델을 고려하는 탐색 방법의 필요성을 보인다.

Optimization of input data using conceptual rainfall-runoff model (개념적 강우-유출 모형을 활용한 입력자료 최적화 연구)

  • Jun, Kyung Soo;Sunwoo, Wooyeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.328-328
    • /
    • 2019
  • 효울적인 수자원 관리를 위해 홍수, 가뭄예측을 비롯한 수문분석이 필수적이나 입력자료 구축시스템의 한계로 인해 다양한 수문 데이터를 활용한 연구가 부족한 실정이다. 입력자료의 안정적인 구축뿐 아니라 입력자료의 다양화 및 최적화를 통해서 수문분석의 정확성을 향상시킬 수 있으며 이를 위한 연구가 필요하다. 본 연구에서는 지표면과 지표아래의 토양 수분 상태를 개념화한 분포형 수문 모델을 이용하여 대표적인 기상-수문 인자인 강우, 토양수분 및 증발산 데이터를 적용함으로써 입력자료를 최적화하기 위한 방법을 연구하였다. 연구결과 강우-유출모형의 회귀분석에서 결정계수 값이 0.8 이상으로 신뢰할 만한 수준을 보였으며, 연구지역의 유출특성이에 입력자료의 최적화 정도에 영향을 미치는 것으로 나타났다. 이를 통해 강우-유출모형 입력자료의 다각화 및 최적화 연구를 통해 수문 자료 활용 가능성을 확대하고, 모형의 정확도 개선을 기대할 수 있으며, 분석 결과로부터 개념적 강우-유출 모형의 안정성을 검증할 계획이다.

  • PDF

Road Construction Cost Estimation Model in the Planning Phase Using Artificial Neural Network (인공신경망을 적용한 기획단계의 도로건설 공사비 예측 모델)

  • Han, Hyeong Dong;Kim, Jeong Hwan;Yoon, Jung Ho;Seo, Jong Won
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.31 no.6D
    • /
    • pp.829-837
    • /
    • 2011
  • Construction cost estimation in planning phase which calculates the cost for performing construction tasks is used for various ways. Meanwhile, in the case of road construction, the existing cost estimating method in early phase based on numerical mean value of the past is not accurate to be used. This paper propose neural network model for estimating road construction cost in planning phase to solve the limit of current cost estimating method. The model was designed using past road construction bidding records, and variables of model were optimized through trial and error. The estimation result of the model was compared with regression analysis and government's standard and it was verified that the model is better in accuracy. It is expected that the proposed model will be used for road cost estimation in planning phase.