• Title/Summary/Keyword: 결측

Search Result 430, Processing Time 0.038 seconds

Development of Flood Discharge Estimation System Using Fuzzy Regression Technique in Mountainous River (Fuzzy 회귀분석 기법을 이용한 산지하천 홍수유출 산정 시스템 개발)

  • Lee, Tae-Geun;Choi, Chang-Won;Yi, Jae-Eung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.382-386
    • /
    • 2012
  • 최근 산지하천 유역에서 발생하는 홍수와 이를 동반한 토석류에 의해 많은 인적, 물적 피해가 빈번히 발생하고 있다. 이러한 피해를 최소화하기 위해서는 유역의 정확한 홍수유출량 해석이 동반되어야 하지만 산치하천 유역은 유출특성 분석에 기본이 되는 수위관측소의 수가 적고, 관측소가 존재하더라도 결측치가 많거나 자료보유 연한이 짧아 자료의 활용성이 떨어진다. 따라서 선행 연구에서는 미비한 자료만으로도 회귀분석이 가능하며 높은 신뢰도를 갖는 Fuzzy 회귀분석 기법을 도입하여 수위자료 없이도 산지하천 유역의 유역면적과 하도경사를 바탕으로 홍수유출량을 평가할 수 있는 기술을 개발하였다. 본 연구에서는 여기에 빈도별 강우량을 새롭게 추가하여 홍수량 산정식을 개선 및 보완하였다. 새롭게 도출된 홍수량 산정식의 정확도는 기존 대상유역 내 특정지점 설계홍수량을 기준으로 기존 개발된 홍수량 산정식과 비교하여 검토하였고 비교적 높은 정확도를 나타냈다. 이를 바탕으로 일반 사용자도 손쉽게 홍수량을 산정할 수 있도록 MATLAB을 이용하여 홍수량 산정 프로그램을 개발하였다.

  • PDF

A Development of Personalized Recommendation System using Spark GraphX (Spark GraphX를 활용한 개인 추천 시스템 개발)

  • Kim, Sungsook;Park, Kiejin;Lu, Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.41-43
    • /
    • 2018
  • 소설 데이터는 인터넷 상의 수 많은 개인과 개인의 상호 작용에 의하여 연결되어 있으며, 이러한 데이터를 분석하여, 분석 대상에 내재하고 있는 구조와 특성을 파악하는 일은 중요하다. 특히, 개인 추천을 위해서는 개별 데이터들의 관계 그래프를 활용하여 빠르고 정확하게 추천 값을 도출하는 것이 효율적이다. 하지만, 기존 추천 기법으로는 신규 사용자와 아이템이 끊임없이 등장하는 상황을 즉각적으로 반영하기가 어렵고, 또한 많은 결측값을 포함하는 sparse 한 데이터일 경우에는 추천 시스템의 연산 공간과 시간에 많은 제약이 있다. 이에 본 논문에서는 Spark GraphX 를 활용한 개인 추천 시스템을 설계 및 개발하였으며, 이를 통하여 사용자와 아이템간에 내재하는 복합 요인이 반영된 그래프 기반 추천을 실행하여, 개인 추천 결과의 우수성을 확인하였다.

Estimation of South Korea Spatial Soil Moisture using TensorFlow with Terra MODIS and GPM Satellite Data (Tensorflow와 Terra MODIS, GPM 위성 자료를 활용한 우리나라 토양수분 산정 연구)

  • Jang, Won Jin;Lee, Young Gwan;Kim, Seong Joon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.140-140
    • /
    • 2019
  • 본 연구에서는 Terra MODIS 위성자료와 Tensorflow를 활용해 1 km 공간 해상도의 토양수분을 산정하는 알고리즘을 개발하고, 국내 관측 자료를 활용해 검증하고자 한다. 토양수분 모의를 위한 입력 자료는 Terra MODIS NDVI(Normalized Difference Vegetation Index)와 LST(Land Surface Temperature), GPM(Global Precipitation Measurement) 강우 자료를 구축하고, 농촌진흥청에서 제공하는 1:25,000 정밀토양도를 기반으로 모의하였다. 여기서, LST와 GPM의 자료는 기상청의 종관기상관측지점의 LST, 강우 자료와 조건부합성(Conditional Merging, CM) 기법을 적용해 결측치를 보간하였고, 모든 위성 자료의 공간해상도를 1 km로 resampling하여 활용하였다. 토양수분 산정 기술은 인공 신경망(Artificial Neural Network) 모형의 딥 러닝(Deep Learning)을 적용, 기계 학습기반의 패턴학습을 사용하였다. 패턴학습에는 Python 라이브러리인 TensorFlow를 사용하였고 학습 자료로는 농촌진흥청 농업기상정보서비스에서 101개 지점의 토양수분 자료(2014 ~ 2016년)를 활용하고, 모의 결과는 2017 ~ 2018년까지의 자료로 검증하고자 한다.

  • PDF

A Study on Automatic Missing Value Imputation Replacement Method for Data Processing in Digital Data (디지털 데이터에서 데이터 전처리를 위한 자동화된 결측 구간 대치 방법에 관한 연구)

  • Kim, Jong-Chan;Sim, Chun-Bo;Jung, Se-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.24 no.2
    • /
    • pp.245-254
    • /
    • 2021
  • We proposed the research on an analysis and prediction model that allows the identification of outliers or abnormality in the data followed by effective and rapid imputation of missing values was conducted. This model is expected to analyze efficiently the problems in the data based on the calibrated raw data. As a result, a system that can adequately utilize the data was constructed by using the introduced KNN + MLE algorithm. With this algorithm, the problems in some of the existing KNN-based missing data imputation algorithms such as ignoring the missing values in some data sections or discarding normal observations were effectively addressed. A comparative evaluation was performed between the existing imputation approaches such as K-means, KNN, MEI, and MI as well as the data missing mechanisms including MCAR, MAR, and NI to check the effectiveness/efficiency of the proposed algorithm, and its superiority in all aspects was confirmed.

Dataset Augmentation Technique for Crack Detection of Wood Building (목조건물 크랙 감지를 위한 데이터셋 증강 기법)

  • Kim, Beom-Jun;Kim, Inki;Lim, Hyunseok;Gwak, Jeonghwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.645-647
    • /
    • 2021
  • 본 논문에서는 목조건물의 Crack만을 움직여 Data set을 증강하는 기법을 제안한다. 이 기법은 이미지 내 Crack Detection의 학습 데이터를 만들기 위해 이미지의 전체적인 값으로 Flip, Rotation, Shift, Rescale 등의 변환을 통해 Data Augmentation을 진행하는 대신 Crack이라는 하나의 Object만을 가지고 새로운 데이터를 생성한다. 이때 Object는 관심 영역 내에서만 연산되어 기존의 방법보다 더욱 많은 데이터를 얻을 수 있으며, Crack이 관심 영역 밖으로 이동하지 않기 때문에 이상치 혹은 결측치가 존재하지 않는 데이터를 얻을 수 있다. 또한 Crack이 존재하지 않는 이미지에도 임의적으로 Crack을 생성하여 새로운 데이터를 만들 수 있다. 결론적으로 본 논문에서는 Crack Detection의 학습을 위하여 기존 방법보다 우수한 성능의 Data Augmentation을 제안하였다.

  • PDF

Development of Prediction Model for School Fine Dust (학교 미세먼지 예측 모델 개발)

  • Jeong, Jongduck;Han, Gyoohan;Kim, Sungsuk;Kim, Jaehyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.14-16
    • /
    • 2022
  • 세계보건기구에 의해 미세먼지가 1급 발암물질로 지정됨에 따라, 건강에 미치는 영향에 대한 관심이 커지고 있다. 성장기 학생들은 학교에서 오랫동안 머무르게 되며, 따라서 교내 미세먼지는 학생들의 건강에 미치는 영향이 매우 클 수 있다. 본 연구에서는 1년동안 대상 학교에서 수집한 미세먼지 관련 데이터 및 공개된 Air Korea, 기상청 데이터를 활용하여, LSTM 기반 미세먼지 예측 모델을 개발하였다. 수집한 데이터에서 일부 오류나 결측치가 있었지만, 이를 활용한 미세먼지 예측 정확도는 충분히 가치가 있다고 판단된다.

Changes and Improvements of the Standardized Eddy Covariance Data Processing in KoFlux (표준화된 KoFlux 에디 공분산 자료 처리 방법의 변화와 개선)

  • Kang, Minseok;Kim, Joon;Lee, Seung-Hoon;Kim, Jongho;Chun, Jung-Hwa;Cho, Sungsik
    • Korean Journal of Agricultural and Forest Meteorology
    • /
    • v.20 no.1
    • /
    • pp.5-17
    • /
    • 2018
  • The standardized eddy covariance flux data processing in KoFlux has been updated, and its database has been amended accordingly. KoFlux data users have not been informed properly regarding these changes and the likely impacts on their analyses. In this paper, we have documented how the current structure of data processing in KoFlux has been established through the changes and improvements to ensure transparency, reliability and usability of the KoFlux database. Due to increasing diversity and complexity of flux site instrumentation and organization, we have re-implemented the previously ignored or simplified procedures in data processing (e.g., frequency response correction, stationarity test), and added new methods for $CH_4$ flux gap-filling and $CO_2$ flux correction and partitioning. To evaluate the effects of the changes, we processed the data measured at a flat and homogeneous paddy field (i.e., HPK) and a deciduous forest in complex and heterogeneous topography (i.e., GDK), and quantified the differences. Based on the results from our overall assessment, it is confirmed that (1) the frequency response correction (HPK: 11~18% of biases for annually integrated values, GDK: 6~10%) and the stationarity test (HPK: 4~19% of biases for annually integrated values, GDK: 9~23%) are important for quality control and (2) the minimization of the missing data and the choice of the appropriate driver (rather than the choice of the gap-filling method) are important to reduce the uncertainty in gap-filled fluxes. These results suggest the future directions for the data processing technology development to ensure the continuity of the long-term KoFlux database.

Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals (3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발)

  • ChanHyeok Jeong;SangYoun Kim;SungKu Heo;Shahzeb Tariq;MinHyeok Shin;ChangKyoo Yoo
    • Korean Chemical Engineering Research
    • /
    • v.61 no.4
    • /
    • pp.523-541
    • /
    • 2023
  • As accessibility to 3D printers increases, there is a growing frequency of exposure to chemicals associated with 3D printing. However, research on the toxicity and harmfulness of chemicals generated by 3D printing is insufficient, and the performance of toxicity prediction using in silico techniques is limited due to missing molecular structure data. In this study, quantitative structure-activity relationship (QSAR) model based on data-centric AI approach was developed to predict the toxicity of new 3D printing materials by imputing missing values in molecular descriptors. First, MissForest algorithm was utilized to impute missing values in molecular descriptors of hazardous 3D printing materials. Then, based on four different machine learning models (decision tree, random forest, XGBoost, SVM), a machine learning (ML)-based QSAR model was developed to predict the bioconcentration factor (Log BCF), octanol-air partition coefficient (Log Koa), and partition coefficient (Log P). Furthermore, the reliability of the data-centric QSAR model was validated through the Tree-SHAP (SHapley Additive exPlanations) method, which is one of explainable artificial intelligence (XAI) techniques. The proposed imputation method based on the MissForest enlarged approximately 2.5 times more molecular structure data compared to the existing data. Based on the imputed dataset of molecular descriptor, the developed data-centric QSAR model achieved approximately 73%, 76% and 92% of prediction performance for Log BCF, Log Koa, and Log P, respectively. Lastly, Tree-SHAP analysis demonstrated that the data-centric-based QSAR model achieved high prediction performance for toxicity information by identifying key molecular descriptors highly correlated with toxicity indices. Therefore, the proposed QSAR model based on the data-centric XAI approach can be extended to predict the toxicity of potential pollutants in emerging printing chemicals, chemical process, semiconductor or display process.

Efficient Outlier Detection of the Water Temperature Monitoring Data (수온 관측 자료의 효율적인 이상 자료 탐지)

  • Cho, Hongyeon;Jeong, Shin Taek;Ko, Dong Hui;Son, Kyeong-Pyo
    • Journal of Korean Society of Coastal and Ocean Engineers
    • /
    • v.26 no.5
    • /
    • pp.285-291
    • /
    • 2014
  • The statistical information of the coastal water temperature monitoring data can be biased because of outliers and missing intervals. Though a number of outlier detection methods have been developed, their applications are very limited to the in-situ monitoring data because of the assumptions of the a prior information of the outliers and no-missing condition, and the excessive computational time for some methods. In this study, the practical robust method is developed that can be efficiently and effectively detect the outliers in case of the big-data. This model is composed of these two parts, one part is the construction part of the approximate components of the monitoring data using the robust smoothing and data re-sampling method, and the other part is the main iterative outlier detection part using the detailed components of the data estimated by the approximate components. This model is tested using the two-years 5-minute interval water temperature data in Lake Saemangeum. It can be estimated that the outlier proportion of the data is about 1.6-3.7%. It shows that most of the outliers in the data are detected and removed with satisfaction by the model. In order to effectively detect and remove the outliers, the outlier detection using the long-span smoothing should be applied earlier than that using the short-span smoothing.