• 제목/요약/키워드: 결측치 추정

검색결과 22건 처리시간 0.023초

시계열자료에서 결측치 추정방법의 비교 (The Comparison of Imputation Methods in Time Series Data with Missing Values)

  • 이성덕;최재혁;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.723-730
    • /
    • 2009
  • 시계열의 결측값은 미지의 모수로 취급될 수 있으며 최대우도방법 또는 확률변수방법에 의해 추정할 수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할 수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 ARMA 모형을 적용하여 두 가지 추정방법인 최대우도추정방법과 확률변수방법을 이용해 결측값을 대체하는 방법을 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001${\sim}$2006년 동안의 월별 Mumps 자료를 이용하여 앞의 두 가지 추정방법을 예측오차제곱합(SSF)을 구하여 비교한다.

연관 사용자 군집과 베이지안 분류를 이용한 사용자 선호도 예측 방법 (User Preference Prediction Method Using Associative User Clustering and Bayesian Classification)

  • 정경용;김진현;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.109-111
    • /
    • 2001
  • 기존의 협력적 필터링 기술을 이용한 사용자 선호도 예측 방법에서는 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법(Nearest-Neighborhood Method)을 사용하고, 피어슨 상관 계수에 의해 사용자의 유사도를 구하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하였다. 본 논문에서는 기존의 사용자 선호도 예측 방법의 문제점을 보완하기 위하여 연관 사용자 군집과 베이지안 분류를 이음한 사용자 선호도 예측 방법을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서의 희박성(Sparsity)문제를 해결하기 위하여 ARHP 알고리즘을 사용하여 사용자를 장르별로 군집하며 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도출 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 기존의 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게 하여 예측의 정확도를 높일 수 있다. 제안된 방법의 성능을 평가하기 위해서 기존의 협력적 필터링 기술과 비교 평가하였다.

  • PDF

심층 인공신경망을 활용한 Smoothed RSSI 기반 거리 추정 (Smoothed RSSI-Based Distance Estimation Using Deep Neural Network)

  • 권혁돈;이솔비;권정혁;김의직
    • 사물인터넷융복합논문지
    • /
    • 제9권2호
    • /
    • pp.71-76
    • /
    • 2023
  • 본 논문에서는 단일 수신기가 사용되는 환경에서 정확한 거리 추정을 위해 심층 인공신경망 (Deep Neural Network, DNN)을 활용한 Smoothed Received Signal Strength Indicator (RSSI) 기반 거리 추정 기법을 제안한다. 제안 기법은 거리 추정 정확도 향상을 위해 Data Splitting, 결측치 대치, Smoothing 단계로 구성된 전처리 과정을 수행하여 Smoothed RSSI 값을 도출한다. 도출된 다수의 Smoothed RSSI 값은 Multi-Input Single-Output(MISO) DNN 모델의 Input Data로 사용되며 Input Layer와 Hidden Layer를 통과하여 최종적으로 Output Layer에서 추정 거리로 반환된다. 제안 기법의 우수성을 입증하기 위해 제안 기법과 선형회귀 기반 거리 추정 기법의 성능을 비교하였다. 실험 결과, 제안 기법이 선형회귀 기반 거리 추정 기법 대비 29.09% 더 높은 거리 추정 정확도를 보였다.

UTIS 구간통행속도 결측치 보정모델 (Imputation Model for Link Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;배광수
    • 한국ITS학회 논문지
    • /
    • 제10권6호
    • /
    • pp.63-73
    • /
    • 2011
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 미통과, 시스템 H/W 및 S/W 오작동 등의 이유로 UTIS 산출 구간통행속도가 도로의 일부 링크에서 결측되는 현상이 나타나고 있다. 본 논문에서는 이러한 결측구간에 신뢰성 높은 교통정보를 제공하기 위한 구간통행속도 추정 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 알고리즘이 추정한 속도들의 정학도가 93.6%로 분석되었다. 이는 새로운 알고리즘이 결측구간의 속도를 비교적 정확하게 추정하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

적응형 뉴로-퍼지 기법을 이용한 수문자료 결측치 추정에 관한 연구 (A Study on the Estimation of Missing Hydrological Data Using Adaptive Network-based Fuzzy Inference System(ANFIS))

  • 신희재;이태희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2020
  • 최근 기후변화로 우리나라는 과거에 비해 태풍이나 국지성 집중호우 및 가뭄 등 극심한 수문현상이 빈번하게 발생하고 그 피해가 더욱 커지고 있는 추세이다. 특히 우리나라의 경우 산지가 많으며 대부분의 하천이 유역면적이 작고 유로연장이 짧아 단시간에 유출이 발생하며 수문학적 특성이 연중 큰 편차를 보이고 있다. 이러한 이상기후에 따른 수문현상 파악 및 피해 경감을 위해 신뢰성 있는 수문자료는 매우 중요하다. 따라서 수문자료에 대한 품질관리는 필수적이지만 자료 결측 및 오측에 대한 신뢰성 높은 품질관리가 이뤄지지 못하고 있는 실정이다. 현재 수위자료의 결측이 발생한 경우 해당 관측소의 수위 자료를 사용해 선형보간 및 운형자법으로 수정하거나 상·하류 관측소의 관계를 이용하여 회귀분석을 통해 자료 결측의 수정 및 보완을 수행하는 등 담당자의 주관적 판단에 의존하고 있다. 본 논문에서는 신뢰성 높은 수문자료의 결측치 보완 및 예측을 위한 방안을 제시하고자 상류의 관측소의 수문자료를 이용한 하류의 단시간 수문 자료예측에 관한 연구를 수행하였다. 이를 위해 자료지향형 모델인 적응형 뉴로-퍼지 기법(Adaptive Network-based Fuzzy Inference System, ANFIS)을 이용한 모형을 적용하였다. 기존의 연구에서 가장 일반적으로 사용되는 물리적 모형은 수문자료를 활용하여 수위 및 유출을 산정함에 있어 매개변수의 결정이 어렵고 많은 오차들을 내포하고 있다. 본 연구에서 사용한 ANFIS는 입력자료와 출력자료만을 고려하여 구축할 수 있기 때문에 자료 수집단계에서 유역의 물리적 자료 및 지형 자료와 같은 방대한 양의 자료 수집이 필요가 없다. 이후 모형이 구축이 된다면 입·출력 자료만을 이용하여 신뢰성 높은 결과를 획득할 수 있지만 입력 자료의 품질에 따라 결과가 좌우되기 때문에 자료의 구성이 매우 중요하다. 본 연구에서는 ANFIS를 통해 무주남대천 유역의 무주군(여의교) 관측소의 수위자료를 입력자료를 사용하여 하류에 위치한 무주군(취수장) 관측소의 수문자료의 결측 보완 및 예측하는 모형을 구축하고 모형의 구조 변화를 통해 가장 정확도 높은 모형을 결정하였다.

  • PDF

한반도의 과거 기후 데이터 구축을 위한 누락된 기록 추정 (Estimation of Missing Records in Daily Climate Data over the Korean Peninsula)

  • 노규호;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.135-135
    • /
    • 2020
  • 우리나라의 기후 자료는 일반적으로 기상청에서 발표하는 종관기상관측(ASOS)과 방재기상관측(AWS), 그리고 북한이 세계기상기구(WMO, World Meteorogical Organization)의 기상통신망(GTS)을 통해 보낸 북한기상관측(NKO)을 사용 할 수 있다. 그러나 이 중 40년 이상의 완전한 관측 자료를 얻을 수 있는 건 ASOS가 유일하지만 공간적인 표현에 한계를 갖고 있다. AWS는 관측소가 많다는 장점이 있지만 관측 기간이 길지 않고 이용 가능한 기간에도 관측이 연속적이지 못한 경우가 많다. NKO는 비록 27개의 관측소가 있지만 많은 데이터가 누락되어 일별 기후자료의 사용에 한계를 갖고 있다. 이러한 미관측 기간이나 관측 자료의 누락은 연속적인 시계열 자료분석을 기반으로 하는 수자원 모델링에 있어서 문제를 야기한다. 본 연구는 1973년부터 2019년까지 47년의 신뢰도 높은 한반도 일일 기후 자료를 구축하기 위해 다양한 방법론을 비교하였다. 추정에 사용한 방법은 총 7개로 EM algorithm for probabilistic principal components (PPCA-EM), Inverse distance weight method (IDWM), Nearest neighbor method (NNM), Multivariate normal copulas (Copula), Elastic net model (Elastic), Ordinary kriging (OK), Regularized principal components with EM algorithm (RPCA-EM)를 살펴보았다. 다양한 형태의 결측치를 가정하여 그 결과값을 비교하였고 이는 Root mean squared error(RMSE), Kling-Gupta efficiency(KGE), Nash-Sutcliffe efficiency(NSE)를 통해 평가하였다. 최종 선택된 방법론을 통하여 한반도 전역을 그리드 기반의 강수 및 최저온도/최고온도의 일별자료로 생성하였다.

  • PDF

색조영상에서 랜덤결측화소값 대체를 위한 EM 알고리즘 기반 기법 (An EM Algorithm-Based Approach for Imputation of Pixel Values in Color Image)

  • 김승구
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.305-315
    • /
    • 2010
  • 본 논문에서는 색조영상의 R-, G-, B-성분에서 랜덤결측된 화소값들의 대체를 위한 프리퀀티스틱(frequentictic) 기법을 제공한다. 이 기법은 관측영상을 가우시안 마코프 랜덤필드 상의 실현치로서 가정하고, 주어진 화소 내의 근방 화소들이 에지 강도에 따른 서로 다른 분산을 가지는 정규분포를 따른다고 설계함으로써 에지에서 결측화소 대체값이 이질적 색상에 영향 받지 않도록 한다. 이러한 모형하에서 우도가 최대화하도록 결측화소값들을 근사 EM 알고리즘에 기반 한 방법으로 모수들을 추정하고 결측화소를 대체한다. 제안된 방법의 결과들은 보간법에 기초한 대체법과 비교하여 그 유효성을 보인다.

베이지안 추정치가 부여된 유사도 가중치와 연관 사용자 군집을 이용한 선호도 예측 시스템 (Preference Prediction System using Similarity Weight granted Bayesian estimated value and Associative User Clustering)

  • 정경용;최성용;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.316-325
    • /
    • 2003
  • 기존의 협력적 필터링 기술을 이용한 사용자 선호도 예측 방법에서는 피어슨 상관 계수에 의해 사용자의 유사도를 구하고, 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하였다. 본 논문에서는 기존의 사용자 선호도 예측 방법의 문제점을 보완하기 위하여 베이지안 추정치가 부여된 유사도 가중치와 연관 사용자 군집을 이용한 선호도 예측 시스템을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서의 희박성 문제를 해결하기 위하여 Association Rule Hypergraph Partitioning 알고리즘을 사용하여 사용자를 장르별로 군집하며 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도를 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 기존의 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게 하여 예측의 정확도를 높일 수 있다. 제안된 방법의 성능을 평가하기 위해서 기존의 협력적 필터링 기술과 비교 평가하였다. 그 결과 기존의 협력적 필터링 기술의 문제점을 해결하여 예측의 정확도를 높이는데 효과적임을 확인하였다.

선호도 재계산을 위한 연관 사용자 군집 분석과 Representative Attribute -Neighborhood를 이용한 협력적 필터링 시스템의 성능향상 (Performance Improvement of Collaborative Filtering System Using Associative User′s Clustering Analysis for the Recalculation of Preference and Representative Attribute-Neighborhood)

  • 정경용;김진수;김태용;이정현
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.287-296
    • /
    • 2003
  • 추천 시스템에 있어서 협력적 필터링 기술은 많은 연구가 되고 있다. 그러나 협력적 필터링 기술을 이용한 추천 시스템은 초기 평가 문제와 희박성 문제가 발생한다. 이를 해결하기 위해서 본 논문에서는 선호도 재 계산을 위한 연관 사용자 군집과 베이지안 추정치를 이용한 사용자 선호도 예측 방법을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서 아이템의 속성을 고려하지 않는 단점을 보완하기 위해서 선호도에 가장 크게 영향을 미치는 대표 장르를 추출하여 유사한 이웃을 찾아 낼 때 예측에 이용하는 Representative Attribute-Neighborhood 방법을 사용한다. 협력적 필터링의 알고리즘에 군집 아이템 백터 내의 특정 아이템의 선호도를 재계산 하기 위한 연관 사용자 군집 분석을 적용하여 성능 향상을 하였다. 또 초기 평가 문제와 희박성 문제를 해결하기 위하여 Association Rule Hypergraph Partitioning 알고리즘을 사용하여 사용자를 장르별로 군집한다. 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도를 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게하여 예측의 정확도를 높일 수 있다. 제안된 방법은 기존의 방법보다 높은 성능을 나타냄을 보인다.

실시간 교통자료 기반 고속도로 교통사고 발생 가능성 추정 모형 (Estimation of Freeway Accident Likelihood using Real-time Traffic Data)

  • 박준형;오철;남궁성
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.157-166
    • /
    • 2008
  • 본 연구에서는 실시간으로 수집되는 고속도로의 검지기 자료를 이용하여 교통사고 발생 가능성을 확률적 관측값으로 나타낼 수 있는 모형을 개발하였다. 사고발생 지점을 기준으로 상류부 및 하류부에서 수집된 사고발생 이전의 교통자료를 모형의 독립변수로 설정하였다. 이항 로지스틱 회귀분석 기법을 적용하여 교통사고 발생을 유발할 잠재력이 높은 교통상황을 교통사고와는 무관한 교통상황으로부터 추출하는 분류문제(classification problem)로 설정하고 모형을 개발하였다. 최근 3년간 서해안 고속도로에서 발생한 사고자료와 검지기 자료를 맵핑하였으며, 유효한 검지기 자료를 모형에 적용하기 위하여 이상치 제거 및 결측치 보정을 위한 자료처리 과정을 별도로 수행하였다. 본 연구에서 개발한 모형에서 산출되는 계량화된 교통사고 발생가능성은 고속도로상에서 실시간 경고정보 제공 및 다양한 교통운영관리 전략의 교통안전 측면에서의 효과를 평가하는데 유용하게 적용될 수 있을 것으로 기대된다.