• 제목/요약/키워드: Imputation Accuracy

검색결과 47건 처리시간 0.026초

Structural health monitoring data reconstruction of a concrete cable-stayed bridge based on wavelet multi-resolution analysis and support vector machine

  • Ye, X.W.;Su, Y.H.;Xi, P.S.;Liu, H.
    • Computers and Concrete
    • /
    • 제20권5호
    • /
    • pp.555-562
    • /
    • 2017
  • The accuracy and integrity of stress data acquired by bridge heath monitoring system is of significant importance for bridge safety assessment. However, the missing and abnormal data are inevitably existed in a realistic monitoring system. This paper presents a data reconstruction approach for bridge heath monitoring based on the wavelet multi-resolution analysis and support vector machine (SVM). The proposed method has been applied for data imputation based on the recorded data by the structural health monitoring (SHM) system instrumented on a prestressed concrete cable-stayed bridge. The effectiveness and accuracy of the proposed wavelet-based SVM prediction method is examined by comparing with the traditional autoregression moving average (ARMA) method and SVM prediction method without wavelet multi-resolution analysis in accordance with the prediction errors. The data reconstruction analysis based on 5-day and 1-day continuous stress history data with obvious preternatural signals is performed to examine the effect of sample size on the accuracy of data reconstruction. The results indicate that the proposed data reconstruction approach based on wavelet multi-resolution analysis and SVM is an effective tool for missing data imputation or preternatural signal replacement, which can serve as a solid foundation for the purpose of accurately evaluating the safety of bridge structures.

Enhancement of durability of tall buildings by using deep-learning-based predictions of wind-induced pressure

  • K.R. Sri Preethaa;N. Yuvaraj;Gitanjali Wadhwa;Sujeen Song;Se-Woon Choi;Bubryur Kim
    • Wind and Structures
    • /
    • 제36권4호
    • /
    • pp.237-247
    • /
    • 2023
  • The emergence of high-rise buildings has necessitated frequent structural health monitoring and maintenance for safety reasons. Wind causes damage and structural changes on tall structures; thus, safe structures should be designed. The pressure developed on tall buildings has been utilized in previous research studies to assess the impacts of wind on structures. The wind tunnel test is a primary research method commonly used to quantify the aerodynamic characteristics of high-rise buildings. Wind pressure is measured by placing pressure sensor taps at different locations on tall buildings, and the collected data are used for analysis. However, sensors may malfunction and produce erroneous data; these data losses make it difficult to analyze aerodynamic properties. Therefore, it is essential to generate missing data relative to the original data obtained from neighboring pressure sensor taps at various intervals. This study proposes a deep learning-based, deep convolutional generative adversarial network (DCGAN) to restore missing data associated with faulty pressure sensors installed on high-rise buildings. The performance of the proposed DCGAN is validated by using a standard imputation model known as the generative adversarial imputation network (GAIN). The average mean-square error (AMSE) and average R-squared (ARSE) are used as performance metrics. The calculated ARSE values by DCGAN on the building model's front, backside, left, and right sides are 0.970, 0.972, 0.984 and 0.978, respectively. The AMSE produced by DCGAN on four sides of the building model is 0.008, 0.010, 0.015 and 0.014. The average standard deviation of the actual measures of the pressure sensors on four sides of the model were 0.1738, 0.1758, 0.2234 and 0.2278. The average standard deviation of the pressure values generated by the proposed DCGAN imputation model was closer to that of the measured actual with values of 0.1736,0.1746,0.2191, and 0.2239 on four sides, respectively. In comparison, the standard deviation of the values predicted by GAIN are 0.1726,0.1735,0.2161, and 0.2209, which is far from actual values. The results demonstrate that DCGAN model fits better for data imputation than the GAIN model with improved accuracy and fewer error rates. Additionally, the DCGAN is utilized to estimate the wind pressure in regions of buildings where no pressure sensor taps are available; the model yielded greater prediction accuracy than GAIN.

시계열 분석을 이용한 진동만의 용존산소량 예측 (Prediction of Dissolved Oxygen in Jindong Bay Using Time Series Analysis)

  • 한명수;박성은;최영진;김영민;황재동
    • 해양환경안전학회지
    • /
    • 제26권4호
    • /
    • pp.382-391
    • /
    • 2020
  • 본 연구에서는 인공지능기법을 이용하여 진동만의 용존산소량 예측을 하였다. 관측자료에 존재하는 결측 구간을 보간하기 위해 양방향재귀신경망(BRITS, Bidirectional Recurrent Imputation for Time Series) 딥러닝 알고리즘을 이용하였고, 대표적 시계열 예측 선형모델인 ARIMA(Auto-Regressive Integrated Moving Average)과 비선형모델 중 가장 많이 이용되고 있는 LSTM(Long Short-Term Memory) 모델을 이용하여 진동만의 용존산소량을 예측하고 그 성능을 평가했다. 결측 구간 보정 실험은 표층에서 높은 정확도로 보정이 가능했으나, 저층에서는 그 정확도가 낮았으며, 중층에서는 실험조건에 따라 정확도가 불안정하게 나타났다. 실험조건에 따라 정확도가 불안정하게 나타났다. 결과로부터 LSTM 모델이 중층과 저층에서 ARIMA 모델보다 우세한 정확도를 보였으나, 표층에서는 ARIMA모델의 정확도가 약간 높은 것으로 나타났다.

NPR기반 누락 교통자료 추정기법 개발 및 적용 (Development and Application of Imputation Technique Based on NPR for Missing Traffic Data)

  • 장현호;한동희;이태경;이영인;원제무
    • 대한교통학회지
    • /
    • 제28권3호
    • /
    • pp.61-74
    • /
    • 2010
  • 지능형 교통체계는 실시간 교통자료를 수집하고 방대한 양의 이력자료를 축적한다. 그러나 방대한 이력자료는 효율적으로 관리/이용되지 않고 있는 실정이다. ADMS와 같은 자료관리시스템이 도입되면서, 이력자료의 잠재적 활용성은 급격히 증대되고 있다. 그러나 자료관리스템의 교통자료는 다량의 누락자료를 포함하고 있다. 누락자료는 장기간에 걸쳐 빈번하게 교통자료를 이용할 수 없게 하기 때문에, 이력자료를 활용하는데 있어 주된 장애요인 중 하나이다. 따라서 누락자료 추정기법은 자료관리시스템에서 주요한 역할을 수행하게 된다. 이러한 한계를 극복하기 위하여, 본 연구에서는 자료관리스템에 탑재가 용이하며 이력자료에 포함된 누락자료를 추정하기 위한 누락자료 추정모형을 개발하였다. 개발모형은 비모수회귀식(NPR)을 기반으로 개발되었으며, 이력자료의 다양한 교통자료 패턴을 이용하고 현실적인 요구사항(변수 최소화, 연산속도, 다양한 형태의 누락자료 보정, 다중대체)을 충족하도록 설계되었다. 모형의 평가는 다양한 누락자료 형태의 상태에서 수행되었으며, 자료관리시스템에 탑재되기 위해 요구되는 정확도, 연산 수행속도에서 기존에 보고된 모형보다 우수한 성능을 보였다.

범주형 자료의 결측치 추정방법 성능 비교 (Comparing Accuracy of Imputation Methods for Categorical Incomplete Data)

  • 신형원;손소영
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.33-43
    • /
    • 2002
  • 범주형 데이터의 결측치 추정을 위하여 최빈 범주법, 로지스틱 회귀분석, 연관규칙과 같은 다양한 방법이 연구되어 왔다. 본 연구에서는 이러한 방법의 추정 값을 결합하는 신경망 융합과 투표융합 방법을 제안하고 이의 성능을 시뮬레이션을 이용하여 비교하였다. 실험에 사용된 데이터의 특성을 나타내는 인자로는 (1) 입출력 변수간의 연결함수, (2) 데이터의 크기, (3) 노이즈의 크기 (4) 결측치의 비율, (5) 결측발생 함수를 사용하였다. 분석결과는 다음과 같다. 데이터의 크기가 작고 결측 발생 비율이 높으면 최빈 범주법, 연관규칙, 신경망 융합의 성능이 높게 나타났으며 데이터의 크기가 작고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 로지스틱 회귀분석, 신경망 융합의 성능이 높게 나타났다. 데이터의 크기가 크고, 결측치의 비율이 낮으면서, 노이즈가 크고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 신경망 융합의 성능이 높게 나타났다.

Minimac3와 Beagle 프로그램을 이용한 한우 770K chip 데이터에서 차세대 염기서열분석 데이터로의 결측치 대치의 정확도 분석 (Imputation Accuracy from 770K SNP Chips to Next Generation Sequencing Data in a Hanwoo (Korean Native Cattle) Population using Minimac3 and Beagle)

  • 안나래;손주환;박종은;채한화;장길원;임다정
    • 생명과학회지
    • /
    • 제28권11호
    • /
    • pp.1255-1261
    • /
    • 2018
  • DNA 염기서열의 발전과 많은 단일염기서열변이 정보(Single Nucleotide polymorphism, SNP)의 발굴은 유전 분석을 가능하게 만들었다. 단일염기서열변이 정보가 사람의 유전체뿐만 아니라 가축의 유전체에서도 이용할 수 있게 됨에 따라서 SNP 칩 마커를 통해 유전자형의 분석이 가능하게 되었다. 여러 유전자형 대치프로그램 중에서도 Minimac3 소프트웨어는 비교적 정확성이 높고, 계산의 효율성을 위해 분석을 단순화하여 유전자형의 결측치 대치 분석 시간을 단축시킨다. 따라서 본 연구에서는 Minimac3 프로그램을 사용하여 한우 1,226두 770K SNP 칩 데이터와 311두 차세대 염기서열분석 데이터를 이용하여 유전자형 결측치 대치를 실행해 보았다. 그 결과 염색체별 정확도는 약 94~96%의 정확도를 나타냈으며, 개체별 정확도는 약 92~98%의 정확도를 나타냈다. 유전자형의 결측치 대치의 완료 후, R Square ($R^2$) 값이 0.4 이상인 SNP는 총 SNP의 약 91%였다. $R^2$ 값이 0.6 이상인 SNP는 84%였으며, $R^2$ 값이 0.8 이상인 SNP는 70%였다. 대립유전자형빈도 차이를 기준으로 (0, 0.025), (0.025, 0.05), (0.05, 0.1), (0.1, 0.2), (0.2, 0.3), (0.3, 0.4), (0.4, 0.5)의 7구간에 해당하는 $R^2$ 값은 64~88%였다. 결측치 대치의 총 분석 시간은 약 12시간이 걸렸다. 추후의 유전체 데이터 세트의 크기와 복잡성이 증가하는 SNP 칩 연구에서 Minimac3를 사용한 유전체 결측치 대치법은 한우의 판별에 있어서 칩 데이터의 신뢰도를 향상 시킬 수 있을 것으로 본다.

무응답모형에 기반한 출구조사의 예측 정확성 비교 연구 (A comparison study for accuracy of exit poll based on nonresponse model)

  • 곽정애;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.53-64
    • /
    • 2014
  • 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 가운데 하나는 무응답이라 할 수 있으며 무응답 대체에 대한 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 특히 대통령 선거와 같은 민감한 주제에 대한 선거에서는 무응답 대체가 더욱 더 중요하다. 본 연구에서는 무응답 대체의 방법으로 모형에 기반을 둔 대체 방법에 대하여 연구를 진행하였다. 모형에 기반을 둔 대체 방법에서는 무응답 체계의 가정에 따라 무응답 모형을 구축할 수 있으며 무응답 체계에 따라 각기 다른 대체 결과를 제공할 수 있다. 모형에 기반을 둔 무응답 대체 및 추정에서 적절한 무응답 체계의 가정은 정확한 모형 추정을 위한 매우 중요한 전제 조건이다. 그러나 무응답 체계의 가정에 대한 검증 절차는 아직 정확한 해법이 알려지지 않은 상황이다. 본 연구에서는 실제 자료를 이용한 모형적합을 통하여 무응답 체계 가정에 대한 정확도를 비교하고자 하였다. 2012년에 시행된 18대 대통령 선거과정에서 수행된 출구조사 결과를 이용하여 무응답 체계의 가정에 대한 검증과 모형에 의한 예측 정확도를 비교하였다. 무응답 모형의 추정과 무응답 대체를 위하여 EM 알고리즘에 기반을 둔 최대우도 추정방법을 이용하였으며 예측 결과를 비교하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error)를 이용하였다.

Accuracy of Imputation of Microsatellite Markers from BovineSNP50 and BovineHD BeadChip in Hanwoo Population of Korea

  • Sharma, Aditi;Park, Jong-Eun;Park, Byungho;Park, Mi-Na;Roh, Seung-Hee;Jung, Woo-Young;Lee, Seung-Hwan;Chai, Han-Ha;Chang, Gul-Won;Cho, Yong-Min;Lim, Dajeong
    • Genomics & Informatics
    • /
    • 제16권1호
    • /
    • pp.10-13
    • /
    • 2018
  • Until now microsatellite (MS) have been a popular choice of markers for parentage verification. Recently many countries have moved or are in process of moving from MS markers to single nucleotide polymorphism (SNP) markers for parentage testing. FAO-ISAG has also come up with a panel of 200 SNPs to replace the use of MS markers in parentage verification. However, in many countries most of the animals were genotyped by MS markers till now and the sudden shift to SNP markers will render the data of those animals useless. As National Institute of Animal Science in South Korea plans to move from standard ISAG recommended MS markers to SNPs, it faces the dilemma of exclusion of old animals that were genotyped by MS markers. Thus to facilitate this shift from MS to SNPs, such that the existing animals with MS data could still be used for parentage verification, this study was performed. In the current study we performed imputation of MS markers from the SNPs in the 500-kb region of the MS marker on either side. This method will provide an easy option for the labs to combine the data from the old and the current set of animals. It will be a cost efficient replacement of genotyping with the additional markers. We used 1,480 Hanwoo animals with both the MS data and SNP data to impute in the validation animals. We also compared the imputation accuracy between BovineSNP50 and BovineHD BeadChip. In our study the genotype concordance of 40% and 43% was observed in the BovineSNP50 and BovineHD BeadChip respectively.

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

A Big Data-Driven Business Data Analysis System: Applications of Artificial Intelligence Techniques in Problem Solving

  • Donggeun Kim;Sangjin Kim;Juyong Ko;Jai Woo Lee
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.35-47
    • /
    • 2023
  • It is crucial to develop effective and efficient big data analytics methods for problem-solving in the field of business in order to improve the performance of data analytics and reduce costs and risks in the analysis of customer data. In this study, a big data-driven data analysis system using artificial intelligence techniques is designed to increase the accuracy of big data analytics along with the rapid growth of the field of data science. We present a key direction for big data analysis systems through missing value imputation, outlier detection, feature extraction, utilization of explainable artificial intelligence techniques, and exploratory data analysis. Our objective is not only to develop big data analysis techniques with complex structures of business data but also to bridge the gap between the theoretical ideas in artificial intelligence methods and the analysis of real-world data in the field of business.