• 제목/요약/키워드: 결측

검색결과 430건 처리시간 0.037초

CART를 활용한 결측값 대체방법 : 인구주택총조사 혼인상태 항목을 중심으로 (Missing Value Imputation Method Using CART : For Marital Status in the Population and Housing Census)

  • 김영원;이주원
    • 한국조사연구학회지:조사연구
    • /
    • 제4권2호
    • /
    • pp.1-21
    • /
    • 2003
  • 본 연구예서는 일반적인 사회조사에서 사용될 수 있는 효과적인 결측값 대체방법을 검토하기 위해 인구주택총조사 조사항목 중 혼인상태의 결측값을 대체할 수 있는 두 가지 방법을 제안하고 있다. 첫 번째 방법은 CART(Classification and Regression Tree)모형에서 얻어진 최대 예측확률을 기준으로 결측값을 대체하는 일종의 모형기반 접근법이고, 두 번째 방법은 CART 모형에서 얻어진 결과를 근거로 대체층을 구성하여 핫덱(hot-deck) 방법을 적용하는 대체방법이다. 효율성 비교를 위해 2000년 인구주택총조사를 위한 시험조사에서 얻어진 제조사 결과를 이용하여 오분류율을 검토해 본 결과 두 방법 중 CART 모형을 기반으로 핫덱 방법을 적용하는 것이 효율적이라는 결론을 얻을 수 있었다. 아울러 전국에 대해 동일한 모형을 설정한 경우와 거주지 특성에 따라 광역시$.$도의 동지역, 도의 읍$.$면지역으로 구분하여 대체방법을 적용하는 경우를 비교해 본 결과 지역 구분을 통한 효율성 향상 효과는 미흡한 것으로 파악되었다.

  • PDF

다변량 통계 분석을 이용한 결측 데이터의 예측과 센서이상 확인 (Missing Value Estimation and Sensor Fault Identification using Multivariate Statistical Analysis)

  • 이창규;이인범
    • Korean Chemical Engineering Research
    • /
    • 제45권1호
    • /
    • pp.87-92
    • /
    • 2007
  • 최근 공정의 이상을 감지하고 진단하기 위한 공정 모니터링 시스템의 개발이 공정 시스템 분야에서 많은 주목을 받고 있다. 공정으로부터 얻어지는 데이터는 공정의 특성에 대한 유용한 정보를 제공하고 이는 공정의 모델링과 모니터링 그리고 제어에 사용된다. 현대의 화학 및 환경 공정은 고차원적인 특성과 변수간의 강한 상관관계와 동특성 그리고 비선형적 특성을 가지고 있어 모델 기반 접근을 통해 공정을 분석하는 것을 쉽지 않다. 이러한 모델 기반 접근의 한계를 극복하기 위해 많은 시스템 엔지니어와 연구자들이 주성분 분석법(principal component analysis, PCA) 또는 부분 최소 자승법(partial least squares, PLS)과 같은 다변량 분석을 접목한 통계 기반 접근법에 초점을 맞추고 있다. 또한 동특성, 비선형성 등과 같은 특성을 가진 공정에 적용하기 위해 많은 다변량 분석법들이 보완되었다. 여기에서는 동적 주성분 분석법(dynamic PCA)과 케노니컬 변수 분석법(canonical variate analysis)을 이용한 결측 데이터의 예측법과 공정 변수의 복원을 통한 센서 오작동의 판별법에 대해 언급해 보고자 한다.

이동평균법을 이용한 장기간 기저유출분석 (Long Terms Baseflow Separation Using Moving Average Method)

  • 이상신;이상일;김준수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1233-1237
    • /
    • 2010
  • 강변여과는 지표수와 지하수가 각기 갖는 장점과 제약점을 상호 보완하여 수질이 양호한 상수원수를 대량 확보하기 위한 실제적 대안이다. 자연적인 여과작용에 의해 수질이 개선되는 효과가 있어 경제적이고 안정적으로 확보할 수 있지만, 장기간 취수는 지하수위의 저하를 가져 올 수 있으므로 유역의 수문분석을 통한 기저유출량 산정에 관한 연구가 필요하다. 대상지역으로는 현재 강변여과를 개발중인 창원시 대산정수장 취수장 지역이며, 대상지역의 기저유출량을 산정하기 위해 대상지역 상류에 위치한 낙동강 본포교의 낙동강 유량을 기초로 기저유출량을 산정하여 지하수 함양율을 평가하였다. 수문곡선 분리는 여러 방법 중 다른 방법보다 상대적으로 간편하고 실무에서 많이 사용되는 방법인 수평직선분리법을 사용하여 적정 취수 가능량을 산정하기 위한 최소 기저유출량을 산정하고자 한다. 이에 따라, 보유 자료 중 연 평균 최저 유출량을 보인 2008년 가을 갈수기의 시작(2008년 10월)부터 2009년 가을 갈수기의 시작(2009년 10월)까지의 자료를 분석했다. 본포교 유량 자료는 8일부터 10일 간격으로 측정되고 있기 때문에 결측치는 최인접 두 지점 사이의 선형보간법으로 보완했다. 다소 많은 양의 결측치에 대한 보정과 해당 유역의 연간 유출 특성을 파악하기 위해서 이동평균(moving average)을 적용했으며, 적용 결과 관측 주기에 해당하는 10일 이동평균 유출수문곡선이 가장 적합한 것으로 나타났다. 10일 이동평균에 의한 유출수문곡선에 의하면 상승부의 기점은 2009년 6월 12일로 나타났으며 유출량은 47.87cms로 나타났다. 따라서 총 기저유출량은 상승부 기점의 유출량으로 111일 동안 발생하는 것을 알 수 있었으며 그 총량은 약 45,900만$m^3$으로 나타났다. 본 연구에서의 결과 본포교를 유역출구로 하는 이 유역에는 임의 유출이 생기는 호우사상 시, 기저유출량은 총 유출량의 6.38%를 최소한 기대할 수 있음을 알 수 있다.

  • PDF

이변량 프로빗모형을 이용한 미결정자 추론 (Undecided inference using bivariate probit models)

  • 홍종선;정미향
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권6호
    • /
    • pp.1017-1028
    • /
    • 2011
  • 신용평가를 판단하기 어렵기 때문에 평가를 유보하고 특별한 전문가에게 재심사를 의뢰하기 위하여 결정이 보류된 미결정자에 대한 미결정자 추론은 신용평가 분야 이외에도 의학통계와 스포츠통계등 대부분의 통계적 모형에서 발생하는 문제이다. 본 연구에서는 미결정자 추론을 비임의결측 가정하에서의 결측자료 유형으로 간주하고, 표본선택모형 중의 하나인 이변량 프로빗모형을 이용한다. 결정된 차주의 특성을 나타내는 확률변수를 사용하여 미결정자를 추론하는 방법과 보다 정확한 정보를 수집한 후 추가적인 확률변수를 사용하여 추론하는 방법을 제안한다. 실증예제를 통하여 특성변수의 조합과 다양한 미결정 구간, 그리고 절단점의 변동에 따라 미결정자와 전체 오분류율을 비교한다. 미결정구간을 확대하거나 정확한 신용정보를 모형에 추가하여 사용하면 정상 집단과 부도 집단의 정보를 더욱 정확하게 반영할 수 있기 때문에 미결정자와 전체 오분류율의 큰 감소효과를 기대할 수 있다.

한국복지패널 자료를 이용한 아동기 공격성에 대한 경시적 자료 분석 (A longitudinal study for child aggression with Korea Welfare Panel Study data)

  • 최나연;허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1439-1447
    • /
    • 2014
  • 한국 학생들의 아동기 혹은 청소년기의 공격성에 대한 연구들은 대부분 횡단자료를 이용한 것들이다. 경시적 자료를 이용한 연구가 있지만, 반복측정된 자료들이 서로 독립이라는 가정 하에 연구되었다. 본 연구에서는 2006년부터 2012년까지 세 차례 반복측정에 의해 얻어진 한국복지패널 자료를 이용하여, 횡단자료 분석 연구의 결과인 아동 혹은 청소년의 공격성에 영향을 미치는 요인들로 알려진 학교 적응, 자아존중감, 우울 및 불안, 비행, 학교 폭력 피해 경험, 부모로부터 학대 경험과 인터넷 사용시간이 경시적 자료 분석에서도 공격성에 영향을 주는 지를 분석하고자 한다. 한국복지패널 자료의 결측치는 임의결측을 가정하고, 제한적 최우추정량을 이용한 선형혼합모형을 적합하고자 한다.

시간자료의 공간화를 통한 일교통량 결측대체 방법론 연구 (Missing Imputation Methodologies for Daily Traffic Counts by Transforming Time Data into Spatial Data)

  • 허태영;오주삼
    • 한국도로학회논문집
    • /
    • 제9권3호
    • /
    • pp.21-28
    • /
    • 2007
  • 본 연구에서는 결측된 일교통량의 대체를 위하여 교통공학에서 많이 활용되고 있는 기존의 선형내삽법에 공간상관성 기법을 고려한 새로운 선형내삽법을 제안하였다. 일교통량과 같이 시간적 특성을 지닌 자료를 공간위에 배치하여 공간적 상관성을 고려할 수 있도록 하였다. 공간상관성을 측정하기 위하여 일교통량의 순환성을 감안하여 같은 주의 요일간 상관성과 주별 같은 요일의 상관성을 나타내는 지표로서 Moran Index를 사용하였다. 실제 분석을 위하여 한국건설기술연구원에서 제공한 2004년 11월의 28일간의 일교통량 자료를 $4{\times}7$ 격자 형태로 배치하여 일별 교통량자료를 공간화 시켜 공간 상관성을 살펴보았으며, 여러 가지 통계적 지표를 통하여 공간 선형내삽법의 우수성을 확인하였다.

  • PDF

낙동강유역에서의 EFDC 모형에 의한 수질해석 적용성 평가 (Assessment of Water Quality Ananlysis using EFDC Model in Nakdong River Basin)

  • 최현구;박세진;노홍식;한건연
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.142-142
    • /
    • 2012
  • 지금까지 국내 연구에서 EFDC 모형의 활용은 WASP 모형과 연계하여 저수지 수리해석에 주로 이용되었으며, 하천의 수리해석에서도 많이 활용되었다. 이에 본 연구에서는 EFDC 모형의 Full 버전을 이용하여 하천 수질모델링을 수행하고 적용성과 수질해석의 재현성을 검토하고자 한다. 국립환경과학원의 8일 간격 실측자료를 사용하기 위하여 대상구간을 낙동강 본류 C에서 낙동강 본류 K까지를 선정하였고, 2차원 수리해석과 수질해석을 수행하였다. 수리해석의 결과를 확인하기 위하여 유량을 실측자료와 비교하였으며, 수질인자는 수온, COD, TOC, DO, TN, TP에 대해 모의하였으며, 모형에서 직접 계산되지 않는 BOD는 COD와 환산을 통해 간접적인 방법으로 산정하여 실측자료와 비교하였다. EFDC 모형의 하천에서의 수질해석 적용성을 평가하기 위하여 모의 결과와 실측자료를 이용하여 통계분석을 수행하여 수리 수질해석의 재현성을 평가하였다. 본 연구에서 수행한 EFDC를 이용한 수리 및 수질 모델링의 모의의 예측결과는 우수한 것으로 판단되나, BOD의 경우 다른 인자들의 모의결과에 비해 다소 낮게 나타나고 있는데, 이는 COD나 TOC와 관련된 BOD의 환산에 대한 연구의 부족으로 인한 결과로 보이며, 향후 보다 향상된 기법을 이용한다면 이러한 문제는 개선될 것으로 판단된다. 검증을 위한 실측치로 8일 간격 실측치를 이용하였는데 이 자료의 경우 8일 간격이므로 실제로 결측치가 많이 발생을 하고, 또한 유량이 많이 발생하는 홍수기시에는 관측을 하지 않는 문제가 있어 실제로 자료의 변동이 큰 경우에는 모의 결과가 실측치의 경향을 잘 쫓아가지 못하는 문제가 발생하게 된다. 따라서 모의결과 신뢰도 향상을 위해 일간격의 실측치를 확보하거나 또는 결측치를 보완할 수 있는 기법에 대한 선행 연구가 필요할 것으로 판단된다.

  • PDF

부분관측된 유량자료의 연속 일유량자료로 확장법 (Extension Techniques of Partially Recorded Stream-flow to Continuous Daily Data)

  • 백경오;임동희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.397-397
    • /
    • 2011
  • 2004년부터 4대강 물환경연구소는 수질오염총량관리제의 원활한 추진을 위해 총량관리단위유역 말단부에서 8일 간격으로 청천(晴天)시를 중심으로 유량과 수질을 동시에 측정하기 시작하였다. 그 결과 연중 하천유량과 수질의 연동 여부 및 변동 추이를 확인하는 것이 가능하게 되었다. 그러나 8일 간격으로 생산되는 유량은 지침의 정의와 맞물려 기준유량의 산정에 또 다른 어려움을 주고 있다. '한강수계 오염총량관리계획수립 지침'에 따르면 '기준유량은 과거 10년간 평균 저수량으로 한다'고 명시되어 있다. 여기서 저수량이란 유량의 크기를 누가일수로서 표시하여 1년을 통하여 275일은 이보다 더 작지 않은 유량으로 정의된다. 따라서 정확한 저수량을 산정하기 위해서는 1년 365개 매일의 유량자료가 필요하다. 하지만 8일 간격으로 유량을 측정하게 되면 1년 365개 대신 최대 45 여개의 일 유량자료만 취득 가능하므로 유황분석에 어려움이 발생할 수밖에 없다. 본 연구에서는 수질오염총량관리단위유역의 말단부에서 8일 간격으로 계측된 유량자료가 있을 때 이를 연속적인 일유량으로 확대할 수 있는 방법론 중 하나를 소개한다. 미 지질조사국(USGS)에서 주로 사용되는 이 방법은 A지점(부분계측이 이루어지는 지점)의 결측치를 동일 유역 혹은 수문학적으로 유사한 유역의 B지점(연속계측이 이루어지는 지점)의 자료를 이용하여 보완하는 방식이다. 이를 위해 먼저 부분계측이 이루어진 날과 같은 날짜의 유량자료를 연속계측자료에서 추출한 다음 두 자료(A지점에서의 모든 유량과 B지점에서의 추출된 유량)의 상관성을 비교해 본다. 두 자료간에 상관도가 높다면 이를 잘 표현하는 방정식을 통해 A지점의 결측치를 내 외삽한다. 여기서 두 자료간 상관도를 잘 묘사할 수 있는 방법으로 본 연구에서는 최소제곱법(Least Square Estimator, LSE)과 분산확장법(Maintenance of Variance Extension, MOVE)을 비교,분석해 보았다. 한강수계 수질오염총량관리단위유역 중 동일지점에 8일 간격 부분계측 유량자료와 일 연속자료가 동시에 존재하는 곳이 6지점이 있었으며 이 자료들을 바탕으로 LSE와 MOVE의 정확도를 검증해 본 결과 MOVE가 일 연속유량 확장에 더 나은 결과를 보였다.

  • PDF

재난 모니터링을 위한 Landsat 8호 영상의 구름 탐지 및 복원 연구 (Cloud Detection and Restoration of Landsat-8 using STARFM)

  • 이미희;천은지;어양담
    • 대한원격탐사학회지
    • /
    • 제35권5_2호
    • /
    • pp.861-871
    • /
    • 2019
  • Landsat 위성영상은 재난 피해 지역에 대해 주기적이며 광역적인 관측이 가능하여 재난 피해분석, 재난 모니터링 등 활용도가 증가하고 있다. 하지만 광학위성영상 특성상 구름으로 인한 결측된 영역으로 인해 주기적인 재난 모니터링에는 한계가 있어 결측된 영역의 복원 연구가 필요하다. 본 연구에서는 Landsat 8호 영상 취득 시 제공되는 QA밴드를 이용하여 구름 및 구름그림자를 탐지 및 제거하고, STARFM 알고리즘을 통해 제거된 영역의 영상 복원을 수행하였다. 복원된 영상은 기존의 영상 복원 방법으로 복원된 영상과 MLC 기법을 통해 정확도를 비교하였다. 그 결과, STARFM으로 인한 복원방법이 전체정확도 89.40%로, 기존의 영상 복원 방법보다 효율적인 복원방법임을 확인하였다. 따라서 본 연구결과를 통해 향후 Landsat 위성영상을 이용한 재난분석 수행 시 활용도를 높일 수 있을 것으로 기대된다.

결측 데이터 보정법에 의한 의사 데이터로 조정된 예측 최적화 방법 (Predictive Optimization Adjusted With Pseudo Data From A Missing Data Imputation Technique)

  • 김정우
    • 한국산학기술학회논문지
    • /
    • 제20권2호
    • /
    • pp.200-209
    • /
    • 2019
  • 미래 값을 예측할 때, 학습 오차(training error)를 최소화하여 추정된 모형은 보통 많은 테스트 오차(test error)를 야기할 수 있다. 이것은 추정 모델이 주어진 데이터 집합에만 집중하여 발생하는 모델 복잡성에 따른 과적합(overfitting) 문제이다. 일부 정규화 및 리샘플링 방법은 이 문제를 완화하여 테스트 오차를 줄이기 위해 도입되었지만, 이 방법들 또한 주어진 데이터 집합에서만 국한 되도록 설계되었다. 본 논문에서는 테스트 오차 최소화 문제를 학습 오차 최소화 문제로 변환하여 테스트 오차를 줄이기 위한 새로운 최적화 방법을 제안한다. 이 변환을 수행하기 위해 주어진 데이터 집합에 대해 의사(pseudo) 데이터라고 하는 새로운 데이터를 추가하였다. 그리고 적절한 의사 데이터를 만들기 위해 결측 데이터 보정법의 세 가지 유형을 사용하였다. 예측 모델로서 선형회귀모형, 자기회귀모형, ridge 회귀모형을 사용하고 이 모형들에 의사 데이터 방법을 적용하였다. 또한, 의사 데이터로 조정된 최적화 방법을 활용하여 환경 데이터 및 금융 데이터에 적용한 사례를 제시하였다. 결과적으로 이 논문에서 제시된 방법은 원래의 예측 모형보다 테스트 오차를 감소시키는 것으로 나타났다.