• Title/Summary/Keyword: 결측 구조

Search Result 30, Processing Time 0.024 seconds

Applicability of Missing Rainfall Data Estimation using Artificial Neural Networks (신경망 모형을 이용한 결측 강우 자료 추정방법의 적용성 연구)

  • Cho, Herin;Park, Hee-Seong;Kim, Hyoungseop
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.512-512
    • /
    • 2015
  • 시 공간적 관측에서 다양한 원인에 의해 강우 자료에 결측이나 오측이 발생할 수 있다. 강우를 측정하고 자료를 수집 관리하는 측면에서 결측 되거나 오측된 자료를 추정 보완할 필요가 있다. 현재까지 결측 강우 자료를 추정하기 위한 방법으로 결측 지점 인근의 관측소를 이용한 단순 가중 평균치 방법에서부터 복잡한 통계적 기반의 보간 방법에 이르기까지 많은 연구들이 진행되고있다. 본 연구에서는 결측 된 강우 자료를 추정하기 위해 인공 신경망을 이용하여 모형을 구축하고 주변 관측소의 강우자료를 이용해 신경망 학습을 실시하여 적용해 보았으며, 최근 관측의 단위가 짧아지고 있는 점을 고려하여 10분, 30분, 1시간 등 다양한 시간간격의 강우자료를 구축하고 선형회귀모형과 RDS 방법, 신경망 모형을 이용한 방법 등을 적용한 결과를 비교하여 신경망 모형의 적용성을 살펴보았다. 단순한 구조면에서는 기존의 RDS 방법에 대한 적용성이 높은 것으로 판단되었으나, 성능의 개선을 위한 별다른 방법이 없는 반면 신경망 모형은 입력 자료를 다양하게 변환하여 구성하는 경우 성능을 개선하여 적용성이 더 높아 질 수 있는 것으로 판단되었다. 향후 신경망 모형을 이용해 잘못 측정된 강우를 적절히 선별하고 결측된 보완함으로써 관측된 강우 자료의 활용성을 높일 수 있을 것이다.

  • PDF

A Study on Shape Variability in Canonical Correlation Biplot with Missing Values (결측값이 있는 정준상관 행렬도의 형상변동 연구)

  • Hong, Hyun-Uk;Choi, Yong-Seok;Shin, Sang-Min;Ka, Chang-Wan
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.5
    • /
    • pp.955-966
    • /
    • 2010
  • Canonical correlation biplot is a useful biplot for giving a graphical description of the data matrix which consists of the association between two sets of variables, for detecting patterns and displaying results found by more formal methods of analysis. Nevertheless, when some values are missing in data, most biplots are not directly applicable. To solve this problem, we estimate the missing data using the median, mean, EM algorithm and MCMC imputation methods according to missing rates. Even though we estimate the missing values of biplot of incomplete data, we have different shapes of biplots according to the imputation methods and missing rates. Therefore we use a RMS(root mean square) which was proposed by Shin et al. (2007) and PS(procrustes statistic) for measuring and comparing the shape variability between the original biplots and the estimated biplots.

Calibration of Real Time Rainfall Data Using Mutual Information and Artificial Neural Network (상호정보량 기법과 인공신경망을 이용한 실시간 강우 자료 보정)

  • Sung, Kyung-Min;Goo, Yeo-Joo;Kim, Tae-Soon;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2010.05a
    • /
    • pp.1269-1273
    • /
    • 2010
  • 이러한 강우자료의 결측값이나 오자료를 보정하는 것은 그 유역의 정확한 수문학적 특성 파악 및 안전한 수공구조물의 설계에 영향을 미치게 되므로 매우 중요하다고 할 수 있다. 최근 이러한 강우자료를 비선형적 모델인 인공신경망(Artificial Neural Network)을 이용하여 보정하는 연구가 활발히 진행되고 있다(오재우 등, 2008). 그러나 이러한 인공신경망을 적용하는 경우, 선택한 신경망 구조의 형태와 학습(training)을 위해 사용되는 자료가 전체 자료의 특성을 반영하고 있는 정도에 따라 정확도에 차이를 보인다(한광희 등, 2010). 따라서 자료보정을 위한 입력 자료의 선택은 인공신경망을 이용한 결측치 보정의 중요한 과정이다. 본 연구에서는 이러한 입력 자료의 선택을 위한 여러 가지 기법 중 입력 변수간의 상호정보량 (Mutual Information)을 이용한 방법을 적용하여 대상 결측 지점을 보정할 강우지점을 선별한 후 선택된 지점만으로 인공신경망을 구성하여 강우자료를 보정하고 주변 자료를 모두 이용한 결과와 상관성분석으로 얻어진 결과와 비교하였다.

  • PDF

A Study on the Estimation of Missing Hydrological Data Using Adaptive Network-based Fuzzy Inference System(ANFIS) (적응형 뉴로-퍼지 기법을 이용한 수문자료 결측치 추정에 관한 연구)

  • Shin, Hee Jae;Lee, Tae Hee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.264-264
    • /
    • 2020
  • 최근 기후변화로 우리나라는 과거에 비해 태풍이나 국지성 집중호우 및 가뭄 등 극심한 수문현상이 빈번하게 발생하고 그 피해가 더욱 커지고 있는 추세이다. 특히 우리나라의 경우 산지가 많으며 대부분의 하천이 유역면적이 작고 유로연장이 짧아 단시간에 유출이 발생하며 수문학적 특성이 연중 큰 편차를 보이고 있다. 이러한 이상기후에 따른 수문현상 파악 및 피해 경감을 위해 신뢰성 있는 수문자료는 매우 중요하다. 따라서 수문자료에 대한 품질관리는 필수적이지만 자료 결측 및 오측에 대한 신뢰성 높은 품질관리가 이뤄지지 못하고 있는 실정이다. 현재 수위자료의 결측이 발생한 경우 해당 관측소의 수위 자료를 사용해 선형보간 및 운형자법으로 수정하거나 상·하류 관측소의 관계를 이용하여 회귀분석을 통해 자료 결측의 수정 및 보완을 수행하는 등 담당자의 주관적 판단에 의존하고 있다. 본 논문에서는 신뢰성 높은 수문자료의 결측치 보완 및 예측을 위한 방안을 제시하고자 상류의 관측소의 수문자료를 이용한 하류의 단시간 수문 자료예측에 관한 연구를 수행하였다. 이를 위해 자료지향형 모델인 적응형 뉴로-퍼지 기법(Adaptive Network-based Fuzzy Inference System, ANFIS)을 이용한 모형을 적용하였다. 기존의 연구에서 가장 일반적으로 사용되는 물리적 모형은 수문자료를 활용하여 수위 및 유출을 산정함에 있어 매개변수의 결정이 어렵고 많은 오차들을 내포하고 있다. 본 연구에서 사용한 ANFIS는 입력자료와 출력자료만을 고려하여 구축할 수 있기 때문에 자료 수집단계에서 유역의 물리적 자료 및 지형 자료와 같은 방대한 양의 자료 수집이 필요가 없다. 이후 모형이 구축이 된다면 입·출력 자료만을 이용하여 신뢰성 높은 결과를 획득할 수 있지만 입력 자료의 품질에 따라 결과가 좌우되기 때문에 자료의 구성이 매우 중요하다. 본 연구에서는 ANFIS를 통해 무주남대천 유역의 무주군(여의교) 관측소의 수위자료를 입력자료를 사용하여 하류에 위치한 무주군(취수장) 관측소의 수문자료의 결측 보완 및 예측하는 모형을 구축하고 모형의 구조 변화를 통해 가장 정확도 높은 모형을 결정하였다.

  • PDF

Inferring the Transit Trip Destination Zone of Smart Card User Using Trip Chain Structure (통행사슬 구조를 이용한 교통카드 이용자의 대중교통 통행종점 추정)

  • SHIN, Kangwon
    • Journal of Korean Society of Transportation
    • /
    • v.34 no.5
    • /
    • pp.437-448
    • /
    • 2016
  • Some previous researches suggested a transit trip destination inference method by constructing trip chains with incomplete(missing destination) smart card dataset obtained on the entry fare control systems. To explore the feasibility of the transit trip destination inference method, the transit trip chains are constructed from the pre-paid smart card tagging data collected in Busan on October 2014 weekdays by tracing the card IDs, tagging times(boarding, alighting, transfer), and the trip linking distances between two consecutive transit trips in a daily sequences. Assuming that most trips in the transit trip chains are linked successively, the individual transit trip destination zones are inferred as the consecutive linking trip's origin zones. Applying the model to the complete trips with observed OD reveals that about 82% of the inferred trip destinations are the same as those of the observed trip destinations and the inference error defined as the difference in distance between the inferred and observed alighting stops is minimized when the trip linking distance is less than or equal to 0.5km. When applying the model to the incomplete trips with missing destinations, the overall destination missing rate decreases from 71.40% to 21.74% and approximately 77% of the destination missing trips are the single transit trips for which the destinations can not be inferable. In addition, the model remarkably reduces the destination missing rate of the multiple incomplete transit trips from 69.56% to 6.27%. Spearman's rank correlation and Chi-squared goodness-of-fit tests showed that the ranks for transit trips of each zone are not significantly affected by the inferred trips, but the transit trip distributions only using small complete trips are significantly different from those using complete and inferred trips. Therefore, it is concluded that the model should be applicable to derive a realistic transit trip patterns in cities with the incomplete smart card data.

Estimating Missing Cells in Contingency Table with IPE (반복비율적합에 의한 다차원 분할표의 결측칸값 추정)

  • 최현집;신상준
    • The Korean Journal of Applied Statistics
    • /
    • v.13 no.1
    • /
    • pp.197-206
    • /
    • 2000
  • For estimating missing cells in contingency table, we suggest an iterative method which extends IPF (Iterative Proportional Fitting) method. The suggested m~thod is not restricted by the number and the location of missing cells, and does not distort the given quasi-independency.

  • PDF

Estimating the Influence of the Riffle and Pool on the Habitat of Fish (여울과 소의 형성 조건에 따른 어류 서식처 환경 영향)

  • Sung, Young-Du;Park, Bong-Jin;Lee, Sam-Hee;Cjung, Kwan-Sue
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.1007-1011
    • /
    • 2006
  • 본 연구에서는 어류 생태계 유지를 위해 필요한 생태학적 추천유량을 산정하고, 어류의 서식처 환경인 여울과 웅덩이의 형성조건을 검토함으로써 '작용'인 '흐름'과 '응답'인 '하상구조'와의 상관 관계를 규명하고자 하였다. 본 연구의 대상하천인 금호강에서는 하상변동이 활발한 자연 상태를 벗어나 하상의 이동성 상당히 둔화된 상태이며, 저수로내 여울과 웅덩이도 대표어종이 서식할 수 있는 자갈하상 구조에 변화가 일어나고 있는 것으로 분석되었다. 이것은 금호강 상류에 영천댐 건설의 영향이 어느 정도 미치고 있음을 유황분석 결과를 통해 간접적으로 파악할 수 있었다. 댐과 같은 수공구조물의 건설로 인하여 하도가 고정화된 상태에서 장기간에 걸치게 되면 여울과 웅덩이와 같은 하상구조가 축소되거나 소멸되어 금호강에서의 대표어종 서식처 환경에 영향을 미칠 것으로 추정된다. 금번 연구결과, 금호강에서 어류의 생식에 필요한 생태학적 추천유량 $8.2m^3/sec$가 필요하였으며, 어류의 서식처 환경인 여울과 웅덩이를 지속적으로 유지되기 위해서는 $250m^3/sec$ 이상의 유량이 연간 한번 이상 흘러야 하고, 2.5년 내지 3년 마다 약 $500m^3/sec$ 정도의 유량이 흐를 필요가 있다고 분석되었다. 본 연구 대상지점에서 흐름과 하상구조를 하천생태계와 연계해서 볼 때, 생태추천유량은 어디까지나 대표어종이 서식할 수 있는 최소조건에 불과하다. 대표어종이 장기간에 걸쳐 서식할 수 있는 하상구조가 존재하기 위해서는 대표어종이 선호하는 여울과 웅덩이가 필요하다. 결국 대표어종이 서식하기 위한 필요충분조건은 생태추천유량 확보와 아울러 대표어종이 선호하는 하상구조를 유지하기 위해서는 하도의 이동성을 유발할 유황변화가 필요하다는 것이 입증되었다.대상으로 연중 발생하는 큰 호우사상에 대해 임의의 강우관측소를 결측지점으로 가정하고 주변의 강우관측소로부터 각각의 방법을 이용해 가중치들을 산정하여 결측지점의 강우량 값을 보정하고자 하였다. 또한 각각의 방법을 이용하여 얻어진 결과에 대해 실측값과 보정값의 오차정도를 평균절대오차법(Mean Absolute Error)과 제곱평균제곱근오차법(Root Mean Squared Error)에 의해 산정하여 보정 방법간의 효율성을 검토하고자 하였다.9년, 그리고 2010년${\sim}$2019년까지 총 4구간으로 나누어 결과를 도출하였으며 예상한 바와 같이 후반기 20년 동안에 세 가지 지표가 취약해 지는 것을 확인할 수 있었고, 특히 2000년부터 2009년까지 10년 동안에는 더욱 취약해짐을 확인할 수 있었다.를 보임에 따라 그 정책적 효과는 때로 역기능적인 결과로 초래하였다. 그럼에도 불구하고 이 연구결과를 통하여 최소한 주식시장(株式市場)에서 위탁증거금제도는 그 제도적 의의가 여전히 있다는 사실이 확인되었다. 또한 우리나라 주식시장에서 통상 과열투기 행위가 빈번히 일어나 주식시장을 교란시킴으로써 건전한 투자풍토조성에 저해된다는 저간의 우려가 매우 커왔으나 표본 기간동안에 대하여 실증분석을 한 결과 주식시장 전체적으로 볼 때 주가변동율(株價變動率), 특히 초과주가변동율(超過株價變動率)에 미치는 영향이 그다지 심각한 정도는 아니었으며 오히려 우리나라의 주식시장은 미국시장에 비해 주가가 비교적 안정적인 수준을 유지해 왔다고 볼 수 있다.36.4%)와 외식을 선호(29.1%)${\lrcorner}$ 하기 때문에 패스트푸드를 이용하게 된 것으로 응답 하였으며, 남 여 대학생간에는 유의한 차이(p<0.05)가 인정되었다. 응답자의 체형은 ${\ulco

  • PDF

Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals (3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발)

  • ChanHyeok Jeong;SangYoun Kim;SungKu Heo;Shahzeb Tariq;MinHyeok Shin;ChangKyoo Yoo
    • Korean Chemical Engineering Research
    • /
    • v.61 no.4
    • /
    • pp.523-541
    • /
    • 2023
  • As accessibility to 3D printers increases, there is a growing frequency of exposure to chemicals associated with 3D printing. However, research on the toxicity and harmfulness of chemicals generated by 3D printing is insufficient, and the performance of toxicity prediction using in silico techniques is limited due to missing molecular structure data. In this study, quantitative structure-activity relationship (QSAR) model based on data-centric AI approach was developed to predict the toxicity of new 3D printing materials by imputing missing values in molecular descriptors. First, MissForest algorithm was utilized to impute missing values in molecular descriptors of hazardous 3D printing materials. Then, based on four different machine learning models (decision tree, random forest, XGBoost, SVM), a machine learning (ML)-based QSAR model was developed to predict the bioconcentration factor (Log BCF), octanol-air partition coefficient (Log Koa), and partition coefficient (Log P). Furthermore, the reliability of the data-centric QSAR model was validated through the Tree-SHAP (SHapley Additive exPlanations) method, which is one of explainable artificial intelligence (XAI) techniques. The proposed imputation method based on the MissForest enlarged approximately 2.5 times more molecular structure data compared to the existing data. Based on the imputed dataset of molecular descriptor, the developed data-centric QSAR model achieved approximately 73%, 76% and 92% of prediction performance for Log BCF, Log Koa, and Log P, respectively. Lastly, Tree-SHAP analysis demonstrated that the data-centric-based QSAR model achieved high prediction performance for toxicity information by identifying key molecular descriptors highly correlated with toxicity indices. Therefore, the proposed QSAR model based on the data-centric XAI approach can be extended to predict the toxicity of potential pollutants in emerging printing chemicals, chemical process, semiconductor or display process.

A Development of Personalized Recommendation System using Spark GraphX (Spark GraphX를 활용한 개인 추천 시스템 개발)

  • Kim, Sungsook;Park, Kiejin;Lu, Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.41-43
    • /
    • 2018
  • 소설 데이터는 인터넷 상의 수 많은 개인과 개인의 상호 작용에 의하여 연결되어 있으며, 이러한 데이터를 분석하여, 분석 대상에 내재하고 있는 구조와 특성을 파악하는 일은 중요하다. 특히, 개인 추천을 위해서는 개별 데이터들의 관계 그래프를 활용하여 빠르고 정확하게 추천 값을 도출하는 것이 효율적이다. 하지만, 기존 추천 기법으로는 신규 사용자와 아이템이 끊임없이 등장하는 상황을 즉각적으로 반영하기가 어렵고, 또한 많은 결측값을 포함하는 sparse 한 데이터일 경우에는 추천 시스템의 연산 공간과 시간에 많은 제약이 있다. 이에 본 논문에서는 Spark GraphX 를 활용한 개인 추천 시스템을 설계 및 개발하였으며, 이를 통하여 사용자와 아이템간에 내재하는 복합 요인이 반영된 그래프 기반 추천을 실행하여, 개인 추천 결과의 우수성을 확인하였다.

Estimation of Evapotranspiration using Satellite data and Meteorological Model (인공 위성과 기상 모형을 이용한 증발산 추정)

  • Jang, Keun-Chang;Kang, Sin-Kyu;Kim, Jea-Chul;Kim, Joon
    • Proceedings of the KSRS Conference
    • /
    • 2009.03a
    • /
    • pp.213-218
    • /
    • 2009
  • 에너지 전달 과정과 밀접한 관계가 있는 증발산(Evapotranspiration)은 기후 변화나 육상 생태계 생산성에서 매우 중요한 요소이며, 수문학적 순환과 지역적 물 관리 측면에서 매우 중요하다. 최근 인공위성을 이용하여 증발산을 추정하기 위한 노력이 많이 진행되고 있으며, 특히 MODIS (Moderate Resolution Imaging Spectroradiometer)는 증발산을 추정하기 위한 좋은 정보를 제공하고 있다 하지만, 구름 등에 의한 증발산 입력 자료 결측은 전체 자료의 획득률을 낮추고, 연속적인 증발산 모니터 링을 제한한다. 따라서 본 연구에서는 MODIS 기반의 증발산 입력 자료의 개선하여 서로 다른 식생과 지형 구조를 갖는 플럭스 연구지에 대한 증발산의 추정 및 평가하고, 남한에 대한 MODIS 기반의 증발산 지도 작성하였다. 또한 구름에 의해 결측된 날에 대해서는 MODIS-MM5 4차원 자료동화 기법을 이용한 증발산의 연속적인 모니터링 기법을 개발하였다. MODIS 기반의 증발산을 추정하기 위해 Revised RS-PM 알고리즘을 사용하였다. 증발산을 평가하기 위해 4 곳의 플럭스 연구지(광릉, 해남 이상 대한민국, 타카야마, 토마코아미 이상 일본) 자료와 비교하였고, 매우 신뢰성 있는 결과를 얻을 수 있었다. MODIS 입력 자료의 개선으로 획득률은 2배 가량 증가하였다. 남한에 대한 연간 증발산은 평균적으로 약 35%의 획득률 (365일 중 약 120일)과 함께 산출되었고, 시 공간적인 분포를 잘 나타내었다. 구름 낀 날에 대한 MODIS-MM5 자료 동화 기법의 적용은 증발산의 연속적인 모니터링을 가능하게 하였다.

  • PDF