• Title/Summary/Keyword: 결측

Search Result 428, Processing Time 0.033 seconds

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

Comparison of Estimation Methods for the Missing Rainfall data in a Urban Sub-drainage Area (도시하천 소배수구역의 결측 강우량 산정 방법 비교)

  • Kim, Chung-Soo;Kim, Hyoung-Seop
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.701-705
    • /
    • 2006
  • 강우자료는 수문 모델링 작업에서 가장 기초적인 수문학적 입력자료로 시간과 공간에 따른 변동성이 크므로 규명하기 복잡한 수문현상 중의 하나이다. 산악지역이 많은 우리나라의 지형학적 특성과 태풍, 장마 및 특히, 최근의 게릴라성 집중호우 등으로 인하여 이러한 변동성이 더욱 커지고 있는 실정이다. 장기간 실측된 수문기상 기초 자료가 부족한 우리나라의 실정상 홍수예보 및 수공구조물 설계를 위해 정확한 강우량 자료의 취득이 선행돼야 한다. 따라서 적절한 장소에 수문관측소 설치 및 관리를 통해 양호한 강우량 자료를 획득해야 하지만, 현장 여건상 등의 이유로 미계측 및 결측, 이상자료가 발생하고 있다. 따라서 이러한 미계측 혹은 결측지점의 우량을 추정할 수 있는 방법을 비교, 분석하여 적절한 보정과정을 수행할 필요가 있다. 그간의 연구에서는 미계측 지점 혹은 산악지역에서의 점 강우량 보정방법에 대한 연구가 진행되었지만, 본 연구에서는 '도시홍수재해관리기술연구사업단'에서 운영 중인 도시하천 유역 특히 소배수구역에서의 결측 자료에 대해 여러 추정 방법을 비교, 분석하여 적절한 방안을 찾고자 한다. 이를 위하여 중랑천 유역의 3개 소배수 구역(월계1 배수구역, 군자 배수구역, 어린이대공원 배수구역)에 설치된 3개 우량관측소와 건설교통부 관할 우량관측소 2개소의 우량자료를 사용하였다. 본 연구에서는 결측치 보간을 위하여 널리 이용되고 있는 산술평균법(Arithmetic Average method), 역거리법(Reciprocal Distance Squared method), 거리고도비율법(Ratio of Distance and Elevation method), 인근관측소와의 관계식 이용, 크리깅방법(Simple Kriging method)을 비교, 검토 적용하였다. 중랑천 유역의 소배수구역을 대상으로 연중 발생하는 큰 호우사상에 대해 임의의 강우관측소를 결측지점으로 가정하고 주변의 강우관측소로부터 각각의 방법을 이용해 가중치들을 산정하여 결측지점의 강우량 값을 보정하고자 하였다. 또한 각각의 방법을 이용하여 얻어진 결과에 대해 실측값과 보정값의 오차정도를 평균절대오차법(Mean Absolute Error)과 제곱평균제곱근오차법(Root Mean Squared Error)에 의해 산정하여 보정 방법간의 효율성을 검토하고자 하였다.

  • PDF

Missing Data Imputation Using Permanent Traffic Counts on National Highways (일반국토 상시 교통량자료를 이용한 교통량 결측자료 추정)

  • Ha, Jeong-A;Park, Jae-Hwa;Kim, Seong-Hyeon
    • Journal of Korean Society of Transportation
    • /
    • v.25 no.1 s.94
    • /
    • pp.121-132
    • /
    • 2007
  • Up to now Permanent traffic volumes have been counted by Automatic Vehicle Classification (AVC) on National Highways. When counted data have missing items or errors, the data must be revised to stay statistically reliable This study was carried out to estimate correct data based on outoregression and seasonal AutoRegressive Integrated Moving Average (ARIMA). As a result of verification through seasonal ARIMA, the longer the missed period is, the greater the error. Autoregression results in better verification results than seasonal ARIMA. Traffic data is affected by the present state mote than past patterns. However. autoregression can be applied only to the cases where data include similar neighborhood patterns and even in this case. the data cannot be corrected when data are missing due to low qualify or errors Therefore, these data shoo)d be corrected using past patterns and seasonal ARIMA when the missing data occurs in short periods.

Comparing Accuracy of Imputation Methods for Categorical Incomplete Data (범주형 자료의 결측치 추정방법 성능 비교)

  • 신형원;손소영
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.1
    • /
    • pp.33-43
    • /
    • 2002
  • Various kinds of estimation methods have been developed for imputation of categorical missing data. They include category method, logistic regression, and association rule. In this study, we propose two fusions algorithms based on both neural network and voting scheme that combine the results of individual imputation methods. A Mont-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data pattern are (1) input-output function, (2) data size, (3) noise of input-output function (4) proportion of missing data, and (5) pattern of missing data. Experimental study results indicate the following: when the data size is small and missing data proportion is large, modal category method, association rule, and neural network based fusion have better performances than the other methods. However, when the data size is small and correlation between input and missing output is strong, logistic regression and neural network barred fusion algorithm appear better than the others. When data size is large with low missing data proportion, a large noise, and strong correlation between input and missing output, neural networks based fusion algorithm turns out to be the best choice.

Evaluation of Gapfilling Method of Missing Soil Moisture Values during Rainfall Period - Gapfilling Method Based on Culmulative Distribution Function (강우기간의 토양수분량 결측값 보간방법 평가 - 누적분포함수를 이용한 결측 보간)

  • Yong Jun Lee;Ki young Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.299-299
    • /
    • 2023
  • 토양수분(soil moisture)은 수문인자의 하나로서 토양 내에 함유된 물의 양을 의미하며, 그 총량은 미미하지만 대기와 지표면 사이에서 일어나는 복잡한 물순환과 에너지 교환을 이해하는데 있어 필수적이다. 현재 국내에서는 「수자원의 조사·계획 및 관리에 관한 법률」(이하 수자원법)에 근거해 토양수분량 관측이 이루어지고 있으며, 수자원 분야의 한국수자원조사기술원 외에도 농업, 임업 분야에서도 다양한 기관에서 지상관측소를 구축해 토양수분량을 측정하고 있다. 국내 지상관측소에서는 주로 지점규모(point scale)로 토양수분량을 관측하는 장비가 사용되고 있으며, 유전율식 장비인 TDR(Time Domain Reflectometry), FDR(Frequency Domain Reflectometry)이나 토양수분장력을 측정하는 장력계(Tensiometer)가 널리 쓰이고 있다. 수자원분야에서는 토양 내 수분의 양을 직관적으로 확인할 수 있는 유전율식 장비가 대중적으로 사용되고 있으며, 최근에는 우주선(Cosmic-Ray)으로부터 발생하는 고속중성자(Fast Neutron)를 통해 중규모 면단위(field scale) 토양수분량을 관측하는 장비인 CRNP(Cosmic-Ray Neutron Probe)에 대한 연구도 활발히 진행되고 있다. 이러한 장비는 주로 야외에 설치해 운영하고 있기 때문에 장비 훼손이나 전원공급의 어려움으로 결측이나 오측이 발생할 수 있다. 토양수분량 시계열자료의 결측이나 오측이 일반적인 감쇄기에 발생했다면 선형보간법으로도 간단히 보간할 수 있지만, 강우에 의한 상승기에 발생했다면 해당 강우사상에서의 토양수분량의 상한치를 알기 어려워 결측보간에 어려움이 있다. 본 연구에서는 토양수분량 시계열자료의 강우기간 결측을 보간하는 방법으로 누적분포함수 역변환 샘플링방법을 선택하였다. 연구에는 음성군(차곡리) 토양수분량 관측소 2021년 자료가 사용되었으며, 관측소 56개 지점 중 임의의 지점에 결측구간을 생성한 뒤 해당 지점과의 상관계수가 높은 지점의 누적분포함수를 이용해 역변환 샘플링 방식으로 임의 지점의 결측을 보간하고 그 결과를 기존값과 비교해 보간 방법의 정확도를 평가하였다.

  • PDF

A Study on the Imputation for Missing Data in Dual-loop Vehicle Detector System (차량 검지자료 결측 보정처리에 관한 연구 (이력자료 활용방안을 중심으로))

  • Kim, Jeong-Yeon;Lee, Yeong-In;Baek, Seung-Geol;Nam, Gung-Seong
    • Journal of Korean Society of Transportation
    • /
    • v.24 no.7 s.93
    • /
    • pp.27-40
    • /
    • 2006
  • The traffic information is provided, which based on the volume of traffic, speed, occupancy collected through the currently operating Vehicle Detector System(VDS). In addition to the trend in utilization fold of traffic information is increasing gradually with the applied various fields and users. Missing data in Vehicle detector data means series of data transmitted to controller without specific property. The missing data does not have a data property, so excluded at the whole data Process Hence, increasing ratio of missing data in VDS data inflicts unreliable representation of actual traffic situation. This study presented the imputation process due out which applied the methodologies that utilized adjacent stations reference and historical data utilize about missing data. Applied imputation process methodologies to VDS data or SeoHaeAn/Kyongbu Expressway, currently operation VDS, after processes at missing data ratio of an option. Imputation process held presented to per lane-30seconds-period, and morning/afternoon/daily time scope ranges classified, and analyzed an error of imputed data preparing for actual data. The analysis results, an low error occurred relatively in the results of the imputation process way that utilized a historical data compare with adjacent stations reference methods.

Study on the Method for Data Interpolation using the Correlation among Runoff, Water Quality Concentration and Load (유출량, 수질 농도 및 부하량의 상호관계를 이용한 자료보간 방법에 관한 연구)

  • Oh, Chang-Ryeol;Jung, Woo-Cheol;Jin, Young-Hoon;Park, Sung-Chun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2007.05a
    • /
    • pp.1474-1478
    • /
    • 2007
  • 수문 및 수질자료는 일정한 기준에 의한 관측치를 시계열 자료로 기록하거나 전송할 때 다양한 형태의 오차가 발생하게 되며 또한 수문 및 수질자료를 관측하는 측정기기의 고장과 유지관리 등의 어려움으로 다양한 형태의 결측 자료가 발생하고 있다. 이와 더불어 수문 및 수질자료는 시공간적 변동성이 크며 비선형성이 강한 특성을 갖고 있다. 이러한 수문 및 수질 자료를 이용하여 모형을 구축할 경우 다양한 형태의 잡음에 대한 검증 및 잡음저감이 필수적 요건이라 할 수 있다. 따라서 본 연구에서는 영산강 유역의 본류부를 대표하는 나주지점에 대한 유출량과 총유기탄소(TOC) 농도 및 TOC 부하량 예측모형을 개발하였으며, 이를 위한 방법으로는 잡음저감을 위하여 웨이블렛 변환과 인공신경망을 적용하였다. TOC 부하량 자료는 유출량과 TOC 자료간의 함수로서 표현이 가능함에 따라 유출량 및 TOC 자료가 결측되었을 경우 역함수에 의한 계산으로 결측 자료에 대한 보간이 가능하다. 따라서 본 연구의 주안점은 잠음 저감 및 인공신경망에 의해 최적화된 예측 모형이 결측된 유출량과 TOC 자료에 대한 역함수로 정도있는 유출량과 TOC 자료 생성 가능성을 검토하고자 한다. 본 연구의 적용 결과, 유출량 자료가 결측되었을 경우 TOC 및 TOC 부하량 예측으로 유출량 자료에 대한 간접추정 및 결측 자료에 대한 보간의 정도를 평가한 결과 $R^2$는 0.99 이상의 값을 보였다. 또한, TOC 자료가 결측되었을 경우 역시 $R^2$는 비교적 우수한 0.97 이상의 값을 보였다. 따라서 본 연구에서 개발한 유출량 및 TOC, TOC 부하량 예측모형의 개발은 정도있는 유출량 및 TOC 수질 자료의 생성이 가능할 것으로 기대된다.한 물순환 해석을 할 수 있는 기반을 확보 하였으며, 가용한 장 단기간의 관측자료와 물수지 분석 연산식의 추정치를 바탕으로 관측자료에 의한 물수지 분석을 수행하였다. 분석 결과로 산지 소하천 유역인 설마천 시험유역의 각 수문요소의 물이동간의 정량적인 값을 알 수가 있었으며, 앞으로 추가적이고 지속적인 수문모니터링이 운영되고 물순환 해석 모형에 의한 검증이 수행된다면 정량적인 물순환 관계를 규명할 수 있을 뿐만 아니라 이와 관련된 수문요소기술을 확보할 수 있을 것이다.절한 타협과 조정을 필요로 한다. 그러나 절제의 한계를 넘어선다고 생각되거나, 조정의 노력이 불가능하거나, 실패했을 때 폭력적인 행동으로 나타나게 된다. 리차즈(I.A Richards)는 분노와 공포는 일단 겉잡을 수 없는 경향이 있다고 하면서 오늘날 폭력에 대한 요구가 일상의 정서 생활에 있어, 억압을 통한, 빈곤함을 반영하고 있지 않은지 생각해봐야 할 것이라고 충고한다. 조성 가이드라인(안)을 제시하였다.EX>$\ulcorner$세종실록$\lrcorner$(世宗實錄) $\ulcorner$지리지$\lrcorner$(地理志)와의 비교를 해보면 상 중 하품의 통합 9개소가 삭제되어 있고, $\ulcorner$동국여지승람$\lrcorner$(東國與地勝覽) 에서는 자기소와 도기소의 위치가 완전히 삭제되어 있다. 이러한 현상은 첫째, 15세기 중엽 경제적 태평과 함께 백자의 수요 생산이 증가하자 군신의 변별(辨別)과 사치를 이유로 강력하게 규제하여 백자의 확대와 발전에 걸림돌이 되었다. 둘째, 동기(銅器)의 대체품으로 자기를 만들어 충당해야할 강제성 당위성 상실로 인한 자기수요 감

  • PDF

Comparative Evaluation of the Pollutant Load Estimation Method in the Water Quality Data Missing Intervals (수질자료 결측구간의 오염부하 추정기법 비교평가)

  • Cho, Beom-Jun;Cho, Hong-Yeon;Kahng, Sung-Hyun
    • Journal of Korean Society of Coastal and Ocean Engineers
    • /
    • v.19 no.1
    • /
    • pp.45-56
    • /
    • 2007
  • Direct estimation of the pollutant load(PL) should be carried out by the data filling in the missing intervals using an appropriate method because it is impossible in which the flow discharge(water quantity) or water quality(WQ) time-series data set have the missing intervals. In this study, the several methods estimating the water quality in the missing periods are suggested and the WQ and pollutants load change patterns are compared and evaluated based on the reproducible degree of the available data change patterns. The most appropriate method is finally suggested and the contribution factor deciding the influence degree and the PL characteristics of the river estuary is also suggested. Based on the PL estimation results using the several methods, the interpolation method considering the fluctuation of the available WQ data is shown to be most efficient. The PL patterns of the Han river estuary is classified as the discharge-dominated type. The data filling process is inevitable and the WQ estimation using the efficient and effective method should be carried out in order to estimate reasonable PL.

The EM algorithm for mixture regression with missing covariates (결측 공변량을 갖는 혼합회귀모형에서의 EM 알고리즘)

  • Kim, Hyungmin;Ham, Geonhee;Seo, Byungtae
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.7
    • /
    • pp.1347-1359
    • /
    • 2016
  • Finite mixtures of regression models provide an effective tool to explore a hidden functional relationship between a response variable and covariates. However, it is common in practice that data are not fully observed due to several reasons. In this paper, we derived an expectation-maximization (EM) algorithm to obtain the maximum likelihood estimator when some covariates are missing at random in the finite mixture of regression models. We conduct some simulation studies and we also provide some real data examples to show the validity of the derived EM algorithm.