• Title/Summary/Keyword: 앙상블기법

Search Result 301, Processing Time 0.038 seconds

Generation of the bias-corrected satellite precipitation based on machine learning using multiple satellite precipitation products (다중 위성 강수자료를 이용한 머신러닝 기반 최적 위성 강수자료 생성)

  • Jung, Sung Ho;Nguyen, Van Giang;Kim, Young Hun;Lee, Gi Ha
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.40-40
    • /
    • 2021
  • 수재해 방지를 위한 수문해석 모형에서 정량적인 강수자료의 역할은 매우 중요하다. 최근에는 기후변화로 인한 국지성 집중호우 등 돌발 강수의 빈도가 증가하고 있어 지상에 설치된 우량계보다 시·공간적 변동성을 반영할 수 있는 격자형 위성 강수자료의 활용성이 커지고 있다. 하지만 위성강수자료는 관측 시에 대기의 상태 또는 위성별 관측 센서, 공간적 스케일 차이 등에 의해 실제 내린 강수와의 편의가 존재한다. 이를 해결하기 위해 지점 강수자료를 이용한 통계적, 지형정보학적 상세화 기법이 적용되고 있으나, 대부분의 연구에서 강수자료의 양적 보정만을 목적으로 수행되었다. 본 연구에서는 머신러닝 기반의 랜덤포레스트(random forest) 모델을 사용하여 다중위성 강수자료(CHIRPSv2, CMORPH, GSMaP, TRMMv7)와 기상청에서 제공하는 AWS, ASOS 지점 강수를 사용하여 최적 위성강수자료를 생성 후 각 위성강수자료와 비교·분석하였다. 2003년에서 2017년까지의 각 위성강수자료를 수집하여 같은 공간 스케일로 전처리한 뒤 모델에 입력하였으며 AWS 강수자료는 훈련, ASOS 강수자료는 검증에 이용되었다. 그 결과, 생성된 최적 위성강수자료는 각 위성강수자료보다 지점강수와의 편의가 줄고 높은 상관관계를 나타내고 있다. 이는 앞으로 사용될 위성강수자료의 시·공간적 보정 및 단기예측에 활용할 수 있으며, 특히 원격탐사자료의 의존도가 높은 미계측 대유역 수문해석에 정량적인 강수자료를 제공할 수 있을 것으로 판단된다.

  • PDF

A Study on Predicting Lung Cancer Using RNA-Sequencing Data with Ensemble Learning (앙상블 기법을 활용한 RNA-Sequencing 데이터의 폐암 예측 연구)

  • Geon AN;JooYong PARK
    • Journal of Korea Artificial Intelligence Association
    • /
    • v.2 no.1
    • /
    • pp.7-14
    • /
    • 2024
  • In this paper, we explore the application of RNA-sequencing data and ensemble machine learning to predict lung cancer and treatment strategies for lung cancer, a leading cause of cancer mortality worldwide. The research utilizes Random Forest, XGBoost, and LightGBM models to analyze gene expression profiles from extensive datasets, aiming to enhance predictive accuracy for lung cancer prognosis. The methodology focuses on preprocessing RNA-seq data to standardize expression levels across samples and applying ensemble algorithms to maximize prediction stability and reduce model overfitting. Key findings indicate that ensemble models, especially XGBoost, substantially outperform traditional predictive models. Significant genetic markers such as ADGRF5 is identified as crucial for predicting lung cancer outcomes. In conclusion, ensemble learning using RNA-seq data proves highly effective in predicting lung cancer, suggesting a potential shift towards more precise and personalized treatment approaches. The results advocate for further integration of molecular and clinical data to refine diagnostic models and improve clinical outcomes, underscoring the critical role of advanced molecular diagnostics in enhancing patient survival rates and quality of life. This study lays the groundwork for future research in the application of RNA-sequencing data and ensemble machine learning techniques in clinical settings.

A Study on the Application of the Price Prediction of Construction Materials through the Improvement of Data Refactor Techniques (Data Refactor 기법의 개선을 통한 건설원자재 가격 예측 적용성 연구)

  • Lee, Woo-Yang;Lee, Dong-Eun;Kim, Byung-Soo
    • Korean Journal of Construction Engineering and Management
    • /
    • v.24 no.6
    • /
    • pp.66-73
    • /
    • 2023
  • The construction industry suffers losses due to failures in demand forecasting due to price fluctuations in construction raw materials, increased user costs due to project cost changes, and lack of forecasting system. Accordingly, it is necessary to improve the accuracy of construction raw material price forecasting. This study aims to predict the price of construction raw materials and verify applicability through the improvement of the Data Refactor technique. In order to improve the accuracy of price prediction of construction raw materials, the existing data refactor classification of low and high frequency and ARIMAX utilization method was improved to frequency-oriented and ARIMA method utilization, so that short-term (3 months in the future) six items such as construction raw materials lumber and cement were improved. ), mid-term (6 months in the future), and long-term (12 months in the future) price forecasts. As a result of the analysis, the predicted value based on the improved Data Refactor technique reduced the error and expanded the variability. Therefore, it is expected that the budget can be managed effectively by predicting the price of construction raw materials more accurately through the Data Refactor technique proposed in this study.

A Target Selection Model for the Counseling Services in Long-Term Care Insurance (노인장기요양보험 이용지원 상담 대상자 선정모형 개발)

  • Han, Eun-Jeong;Kim, Dong-Geon
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.6
    • /
    • pp.1063-1073
    • /
    • 2015
  • In the long-term care insurance (LTCI) system, National Health Insurance Service (NHIS) provide counseling services for beneficiaries and their family caregivers, which help them use LTC services appropriately. The purpose of this study was to develop a Target Selection Model for the Counseling Services based on needs of beneficiaries and their family caregivers. To develope models, we used data set of total 2,000 beneficiaries and family caregivers who have used the long-term care services in their home in March 2013 and completed questionnaires. The Target Selection Model was established through various data-mining models such as logistic regression, gradient boosting, Lasso, decision-tree model, Ensemble, and Neural network. Lasso model was selected as the final model because of the stability, high performance and availability. Our results might improve the satisfaction and the efficiency for the NHIS counseling services.

Hydrologic Drought Outlooks in Korea (국내 수문학적 가뭄전망)

  • Lee, Jae-Kyoung;Kim, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2007.05a
    • /
    • pp.350-355
    • /
    • 2007
  • 최근 우리나라에서 발생한 가뭄의 특징은 발생주기는 짧고 그 피해는 오히려 심화되는 현상을 보이고 있다. 효율적인 가뭄재해 관리를 위해서는 현재 뿐만 아니라 미래에 대한 전망이 선행되어야 한다. 본 연구에서는 국내에 적합한 월단위와 주단위의 가뭄전망기법을 제시하였다. 월단위 가뭄전망에서는 불확실성이 크기 때문에 앙상블 기법을 이용한 확률론적 가뭄전망을 하였고 이에 반해 주단위 가뭄전망에서는 기상청에서 제공하는 GDAPS를 이용하여 확정론적 가뭄전망을 하였다. 월단위와 주단위 가뭄전망 모두 강수, 유량, 지하수위를 인자로 하는 MSWSI(Modified Surface Water Supply Index)를 가뭄지수로 사용을 하였다. 월단위 가뭄전망에서는 과거 강수와 잠재증발산량 시나리오를 물수지모형인 abcd모형의 입력변수로 하여 최종적으로 유량과 지하수위 시나리오를 생산하였다. 확률론적 가뭄전망을 위해 MSWSI를 5개 구간으로 나누어 각 구간의 발생확률을 산정하고 실측자료로부터 산정한 MSWSI와 비교하였으며, AHS(Average Hit Score)를 이용하여 그 정확성을 평가하였다. 금강유역에 2001년과 2005년 7월부터 2006년 6월까지 적용한 결과, 월단위 가뭄전망의 AHS가 33.1로서 초보전망의 AHS인 20.0보다 높아 월단위 가뭄전망으로서 정확성이 있음을 확인하였다. 주단위 가뭄전망에서는 GDAPS를 abcd모형의 입력변수로 하여 확정론적 MSWSI를 산정하여 실측자료로부터 산정한 MSWSI와 비교하였으며, hit ratio를 이용하여 그 정확성을 평가하였다. 2001년 주단위 가뭄전망 결과, 주단위 가뭄전망의 hit ratio가 48.0으로서 초보전망보다 높아 주단위 가뭄전망 또한 효용성이 있음을 입증하였다. 계절별로 살펴보면, 갈수기의 가뭄전망이 홍수기보다 정확성이 높았다. 위 월단위와 주단위 가뭄전망은 적용기간이 짧아 가뭄전망의 정확성을 판단하기에는 아직 이르다고 판단되나 본 연구 결과를 토대로 장기적으로 가뭄전망을 수행하고 평가한다면, 가뭄전망에 대한 신뢰도가 더 높아질 것으로 사료된다.

  • PDF

Deep Learning Forecast model for City-Gas Acceptance Using Extranoues variable (외재적 변수를 이용한 딥러닝 예측 기반의 도시가스 인수량 예측)

  • Kim, Ji-Hyun;Kim, Gee-Eun;Park, Sang-Jun;Park, Woon-Hak
    • Journal of the Korean Institute of Gas
    • /
    • v.23 no.5
    • /
    • pp.52-58
    • /
    • 2019
  • In this study, we have developed a forecasting model for city- gas acceptance. City-gas corporations have to report about city-gas sale volume next year to KOGAS. So it is a important thing to them. Factors influenced city-gas have differences corresponding to usage classification, however, in city-gas acceptence, it is hard to classificate. So we have considered tha outside temperature as factor that influence regardless of usage classification and the model development was carried out. ARIMA, one of the traditional time series analysis, and LSTM, a deep running technique, were used to construct forecasting models, and various Ensemble techniques were used to minimize the disadvantages of these two methods.Experiments and validation were conducted using data from JB Corp. from 2008 to 2018 for 11 years.The average of the error rate of the daily forecast was 0.48% for Ensemble LSTM, the average of the error rate of the monthly forecast was 2.46% for Ensemble LSTM, And the absolute value of the error rate is 5.24% for Ensemble LSTM.

Analysis for Flood Quantile Estimates at Ungauged Sites in Arid and Semi-arid Regions Based on Regional Frequency Analysis (지역빈도해석을 통한 건조지역의 미계측 지점 확률홍수량 추정을 위한 연구)

  • Jung, Kichul;Kang, Boosik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.51-51
    • /
    • 2017
  • 지역빈도해석은 짧은 기간의 자료를 보유하고 있는 계측 지점이나 자료가 없는 미계측 지점에서의 확률수문량을 산정하기 위하여 많이 쓰여 진다. 지역빈도해석을 실시하기 위한 조건으로는 우선 수집된 하천유역들을 대상으로 수문학적 동질 지역을 구분하는 것이 중요하다. 그리고 구분되어진 지역에 포함되는 모든 지점들의 자료를 빈도해석 함으로써 관심 지점의 신뢰할 만한 확률수문량을 산정하는 것이다. 그동안의 지역빈도해석은 주로 비건조지역을 중심으로 홍수와 같은 재난재해 대비 그리고 수자원 관리를 위한 연구들을 실시해왔다. 본 연구의 주 목적은 건조지역의 수자원 관리를 위해 건조지역 하천유역을 중심으로 지역빈도해석을 실시하여 신뢰할만한 확률수문량을 산정하는 것이다. 확률수문량 산정값의 정확도를 향상시키기 위해 지역빈도해석 모델에 쓰여 지는 새로운 지형학적 변수들을 제공하였고 수문학적 동질 지역을 구분 위해 수집된 각 하천유역의 형상들을 확인하여 동질 지역을 정의하였다. 예를 들면, 수지형 유역, 부채형 유역, 격자형 유역과 같은 다른 형상들을 구분하여 각 유역 형상 종류별로 동질 지역을 만들었다. 건조지역의 지역빈도해석을 위해 미국 건조지역의 105개 하천유역 유량자료들을 수집 및 이용하였다. 확률수문량 산정을 위하여 앙상블 인경신경망 (Ensemble Artificial Neural Network)과 정준 상관 계수(Canonical Correlation Analysis)를 이용한 지역빈도해석 모델을 만들었다. 제안된 모델의 수행평가와 정확성 평가를 위해 리샘플링 기법인 10-겹 교차 검증 (10-fold cross-validation), 잭나이프 (Jackknife) 기법들을 이용하였고 모델로부터 산정된 확률수문량값을 편향 (Bias), 상대 편향(rBias), 평균 제곱근 오차 (RMSE), 상대 평균 제곱근 오차 (rRMSE)를 통하여 산정 값과 실제 관측 값의 차이를 분석하였다. 그 결과 건조지역의 지역빈도해석을 위해 새롭게 제시된 지형학적 변수들을 사용하였을 때 모델의 수행능력이 향상되었음을 확인하였다. 또한 하천유역 형상에 따라 동질 지역을 구분하였을 때 향상된 확률수문량이 산정되었다. 향상된 지역빈도해석 모델을 통해 건조지역의 신뢰할만한 확률수문량을 산정함으로써 건조지역의 효과적인 수자원 관리를 위한 수공시설물 설계에 중요한 정보들을 제공할 것이다.

  • PDF

Proposal of a Learning Model for Mobile App Malicious Code Analysis (모바일 앱 악성코드 분석을 위한 학습모델 제안)

  • Bae, Se-jin;Choi, Young-ryul;Rhee, Jung-soo;Baik, Nam-kyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.455-457
    • /
    • 2021
  • App is used on mobile devices such as smartphones and also has malicious code, which can be divided into normal and malicious depending on the presence or absence of hacking codes. Because there are many kind of malware, it is difficult to detect directly, we propose a method to detect malicious app using AI. Most of the existing methods are to detect malicious app by extracting features from malicious app. However, the number of types have increased exponentially, making it impossible to detect malicious code. Therefore, we would like to propose two more methods besides detecting malicious app by extracting features from most existing malicious app. The first method is to learn normal app to extract normal's features, as opposed to the existing method of learning malicious app and find abnormalities (malicious app). The second one is an 'ensemble technique' that combines the existing method with the first proposal. These two methods need to be studied so that they can be used in future mobile environment.

  • PDF

Development of daily spatio-temporal downscaling model with conditional Copula based bias-correction of GloSea5 monthly ensemble forecasts (조건부 Copula 함수 기반의 월단위 GloSea5 앙상블 예측정보 편의보정 기법과 연계한 일단위 시공간적 상세화 모델 개발)

  • Kim, Yong-Tak;Kim, Min Ji;Kwon, Hyun-Han
    • Journal of Korea Water Resources Association
    • /
    • v.54 no.12
    • /
    • pp.1317-1328
    • /
    • 2021
  • This study aims to provide a predictive model based on climate models for simulating continuous daily rainfall sequences by combining bias-correction and spatio-temporal downscaling approaches. For these purposes, this study proposes a combined modeling system by applying conditional Copula and Multisite Non-stationary Hidden Markov Model (MNHMM). The GloSea5 system releases the monthly rainfall prediction on the same day every week, however, there are noticeable differences in the updated prediction. It was confirmed that the monthly rainfall forecasts are effectively updated with the use of the Copula-based bias-correction approach. More specifically, the proposed bias-correction approach was validated for the period from 1991 to 2010 under the LOOCV scheme. Several rainfall statistics, such as rainfall amounts, consecutive rainfall frequency, consecutive zero rainfall frequency, and wet days, are well reproduced, which is expected to be highly effective as input data of the hydrological model. The difference in spatial coherence between the observed and simulated rainfall sequences over the entire weather stations was estimated in the range of -0.02~0.10, and the interdependence between rainfall stations in the watershed was effectively reproduced. Therefore, it is expected that the hydrological response of the watershed will be more realistically simulated when used as input data for the hydrological model.

A Non-annotated Recurrent Neural Network Ensemble-based Model for Near-real Time Detection of Erroneous Sea Level Anomaly in Coastal Tide Gauge Observation (비주석 재귀신경망 앙상블 모델을 기반으로 한 조위관측소 해수위의 준실시간 이상값 탐지)

  • LEE, EUN-JOO;KIM, YOUNG-TAEG;KIM, SONG-HAK;JU, HO-JEONG;PARK, JAE-HUN
    • The Sea:JOURNAL OF THE KOREAN SOCIETY OF OCEANOGRAPHY
    • /
    • v.26 no.4
    • /
    • pp.307-326
    • /
    • 2021
  • Real-time sea level observations from tide gauges include missing and erroneous values. Classification as abnormal values can be done for the latter by the quality control procedure. Although the 3𝜎 (three standard deviations) rule has been applied in general to eliminate them, it is difficult to apply it to the sea-level data where extreme values can exist due to weather events, etc., or where erroneous values can exist even within the 3𝜎 range. An artificial intelligence model set designed in this study consists of non-annotated recurrent neural networks and ensemble techniques that do not require pre-labeling of the abnormal values. The developed model can identify an erroneous value less than 20 minutes of tide gauge recording an abnormal sea level. The validated model well separates normal and abnormal values during normal times and weather events. It was also confirmed that abnormal values can be detected even in the period of years when the sea level data have not been used for training. The artificial neural network algorithm utilized in this study is not limited to the coastal sea level, and hence it can be extended to the detection model of erroneous values in various oceanic and atmospheric data.