• 제목/요약/키워드: 결측

검색결과 430건 처리시간 0.025초

시계열 분석을 이용한 진동만의 용존산소량 예측 (Prediction of Dissolved Oxygen in Jindong Bay Using Time Series Analysis)

  • 한명수;박성은;최영진;김영민;황재동
    • 해양환경안전학회지
    • /
    • 제26권4호
    • /
    • pp.382-391
    • /
    • 2020
  • 본 연구에서는 인공지능기법을 이용하여 진동만의 용존산소량 예측을 하였다. 관측자료에 존재하는 결측 구간을 보간하기 위해 양방향재귀신경망(BRITS, Bidirectional Recurrent Imputation for Time Series) 딥러닝 알고리즘을 이용하였고, 대표적 시계열 예측 선형모델인 ARIMA(Auto-Regressive Integrated Moving Average)과 비선형모델 중 가장 많이 이용되고 있는 LSTM(Long Short-Term Memory) 모델을 이용하여 진동만의 용존산소량을 예측하고 그 성능을 평가했다. 결측 구간 보정 실험은 표층에서 높은 정확도로 보정이 가능했으나, 저층에서는 그 정확도가 낮았으며, 중층에서는 실험조건에 따라 정확도가 불안정하게 나타났다. 실험조건에 따라 정확도가 불안정하게 나타났다. 결과로부터 LSTM 모델이 중층과 저층에서 ARIMA 모델보다 우세한 정확도를 보였으나, 표층에서는 ARIMA모델의 정확도가 약간 높은 것으로 나타났다.

경시적 자료를 이용한 아동 학업성취도 분석 (A longitudinal data analysis for child academic achievement with Korea welfare panel study data)

  • 이나은;허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.1-10
    • /
    • 2017
  • 경시적 자료를 이용한 아동 학업성취도에 영향을 주는 요인을 찾기 위한 기존의 분석들은 각 아동의 반복 측정된 자료들이 독립이라고 가정한 모형을 주로 이용하였다. 본 연구에서는 기존 연구들에서 고려한 아동 학업성취도에 영향을 주는 변수들을 선택하여 반복 측정된 경시적 자료의 종속성을 고려한 고정효과와 임의효과를 포함하는 선형혼합모형으로 분석하여 아동 학업성취도에 영향을 주는 변수들은 무엇인지, 각 아동의 특성들이 반영되는 임의절편과 임의기울기가 있는지를 파악하는 것이 연구의 목적이다. 본 연구에 사용된 자료는 한국복지패널 1, 4, 7차 부가조사 중에서 아동용 설문문항에 대한 자료이고, 국어, 영어와 수학의 학업성취도 점수의 합을 아동 학업성취도로 한다. 선형혼합모형을 이용한 분석 시에 다중공선성의 검토와 결측치의 특성을 파악하고 적절한 오차의 상관행렬을 선택한다.

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

종속적인 중도절단을 가진 동물종양 자료의 분석을 위한 모형 (Analysis of Tumorigenicity Data with Informative Censoring)

  • 김진흠;김윤남
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.871-882
    • /
    • 2010
  • 동물종양 실험에서는 종양발생 시간이 직접 관찰되지 않고 단지 자연사로 인한 관찰 시점이나 강제적으로 희생시킨 시점 이전에 종양이 발생했는지 유무만을 알 수 있다. 이와 같은 형태의 결측을 가진 자료를 분석하기 위해 3단계(건강$\rightarrow$종양발생$\rightarrow$사망) 모형이 널리 사용되고 있다. 본 논문에서는 자연사로 인한 사망 시간이 종속적인 중도절단으로 작용하여 사망 시간과 종양발생 시간이 종속될 때, 이를 모형에 반영하기 위해 감마 프레일티 효과를 도입하였다. 모수 추정은 종양발생 시간과 프레일티 효과의 결측을 다루기 위해 EM 알고리즘 방법을 사용하였다. 제안한 추정량의 소표본 성질을 살펴보기 위해 제안한 방법을 Lindsey와 Ryan (1993, 1994)의 방광암 자료에 적용하여 모수를 추정하였으며, 그 추정값을 바탕으로 모의실험을 수행하였다.

비부정 행렬 인수분해 차원 감소를 이용한 최근 인접 협력적 여과 (Nearest-Neighbor Collaborative Filtering Using Dimensionality Reduction by Non-negative Matrix Factorization)

  • 고수정
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.625-632
    • /
    • 2006
  • 협력적 여과는 사용자 선호도를 예측하기 위해 그 사용자의 유형을 학습하는 데 목적을 둔 기술이다. 협력적 여과 시스템이 전자상거래에서 성공적인 기술일지라도 그들은 데이터의 고차원성과 희박성이라는 문제점을 갖는다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 비부정 행렬 인수분해(NNMF, Non-negative Matrix Factorization) 방법을 이용한 최근 인접 협력적 여과 방법을 제안한다. 행렬을 분해하기 위한 전처리로서 사용자 변동 계수를 이용하여 사용자-아이템 행렬의 결측치를 채우고, 이를 대상으로 비부정 분해 방식을 적용하여 행렬을 인수분해 한다. 비부정 분해 방식을 적용한 긍정 분해는 사용자들을 의미를 갖는 벡터로써 표현함으로써 사용자들을 의미 관계를 갖는 그룹으로 표현한다. 이와 같이 벡터로 표현된 사용자들은 벡터 유사도에 의해 그들간의 유사도를 계산한다. 계산된 유사도의 정도에 의해 이웃을 결정하고, 이웃들이 평가한 아이템에 대한 흥미도를 기반으로 새로운 사용자가 평가하지 않은 아이템에 대한 결측치를 예측한다.

시간경로 유전자 발현자료에서 패턴일치지수와 적응 최근접 이웃을 활용한 결측값 대치법 (Missing values imputation for time course gene expression data using the pattern consistency index adaptive nearest neighbors)

  • 신혜서;김동재
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.269-280
    • /
    • 2020
  • 시간경로 유전자 발현 자료는 마이크로어레이 실험을 시간에 따라 관측한 대용량의 자료로 유전자 발현 수준을 동시에 파악할 수 있다. 하지만 실험 과정이 복잡하여 다양한 원인들에 의해 결측값이 자주 발생한다. 본 논문에서는 시간경로 유전자 발현 자료에 대한 결측값을 추정하는 방법으로 패턴 적응 최근접 이웃(pattern consistency index adaptive nearest neighbors; PANN) 방법을 제안하였다. 이 방법은 국소적 특징을 반영하는 적응 최근접 이웃(adaptive nearest neighbors; ANN) 방법과 관측 시점간 유전자 발현의 일치 정도를 고려하는 패턴일치지수를 결합시킨 것이다. 제안한 PANN 방법의 효능을 평가하기 위하여 두 가지의 실제 시간경로 자료들을 사용하여 몬테카를로 모의실험(Monte Carlo simulation study)을 시행하였다.

실시간 예보 시스템을 위한 우량자료 보정 기법 연구 (A Study on the Reviesd Methods of Missing Rainfall Data for Real-time Forecasting Systems)

  • 한명선;김충수;김형섭;김휘린
    • 한국수자원학회논문집
    • /
    • 제42권2호
    • /
    • pp.131-139
    • /
    • 2009
  • 지구 온난화의 영향에 따른 기상 이변이 전세계적으로 급증하고 있다. 이에 따라 우리나라를 포함한 많은 나라에서 홍수예보 시스템과 수문자료를 저장하는 시스템을 운영하고 있다. 본 연구의 목적은 이러한 시스템에서 운영하고 있는 결측우량 보정방법을 알아보고 더 효과적인 보정방법을 찾아내어 제시하기 위함이다. 이를 위해 한강권역 194개 TM 우량관측소 10분 자료 이용하였다. 보정방법은 실시간 우량자료 보정시스템에서 사용이 용이한 산술 평균법, 역거리 가중법, 상관계수 가중법을 비교하였다. 결측방법 평가를 위해 일정 강우량 이상일 때의 조건에 대해 최소오차법을 사용하였다. 역거리 가중법의 경우 지수가 1.5나 2.0일 때의 결과가 양호하였으며, 방법 중에서는 상관계수가 중법이 정량적으로 가장 양호한 결과를 보였다.

주택가격동향조사를 위한 데이터편집 사례연구 (A Case Study of Data Editing for the Korean Housing Price Survey)

  • 박진우;박현주;김진억
    • 한국조사연구학회지:조사연구
    • /
    • 제6권1호
    • /
    • pp.83-98
    • /
    • 2005
  • 대규모 통계조사에서 수집된 데이터에는 오류나 결측값의 문제가 발생하기 마련이다. 조사, 데이터 입력, 데이터 처리 등의 과정에서 여러 가지 요인에 의해 이런 문제가 생길 수 있는데 이런 데이터를 방치한 채 통계를 생산할 경우 편향이나 다양한 분석에서의 불일치의 문제가 발생하게 되어 통계의 품질과 신뢰성을 떨어뜨릴 수 있으므로 수집된 데이터의 오류나 결측값을 찾아 수정하는 데이터편집은 매우 중요한 작업이다. 해외에서는 데이터편집의 문제를 공론화하여 다루고 있는 데 반해 우리나라에서 데이터편집에 관한 논의는 거의 없는 편이다. 본 연구의 목적은 주택가 격동향조사를 위한 데이터편집의 사례를 소개함으로 데이터편집에 대한 논의의 폭을 넓히는 데 있다. 조사목적에 맞도록 편집규칙을 정하는 과정 및 관련 자료들을 소개하고, 온라인조사라는 조사방식에 맞는 입력 데이터편집방법을 마련하여 실시하는 예들을 소개하며, 마지막으로 출력 데이터편집에 의해 입력 편집에서 걸러지지 않은 오류나 문제들을 제거하는 방법도 소개한다.

  • PDF

신용평가에서 로지스틱 회귀를 이용한 미결정자 추론 (Undecided inference using logistic regression for credit evaluation)

  • 홍종선;정민섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.149-157
    • /
    • 2011
  • 본 연구는 신용평가 과정에서 발생하는 미결정자를 결측자료 문제로 간주하여 MAR와 MNAR 가정 하에서 추론한다. MAR 가정에서 미결정자 추론은 결정자들에 대한 로지스틱 회귀모형의 회귀 계수벡터를 이용하여 미결정자의 부도 확률을 구한 후 결정자의 부도확률과 비교하여 미결정자의 미래 상태를 판단한다. 그리고 MNAR 가정에서의 미결정자 추론은 특성변수가 추가한 로지스틱 모형으로부터 미결정자의 부도확률을 구하고 미결정자를 예측하는 방법을 제안하였다. 두 종류의 실제 자료에 대하여 모의실험을 한 결과, MAR 가정에서 미결정자의 비율이 증가하더라도 원자료의 오분류율과 추론한 결과 차이가 없으며, MNAR 가정에서는 추가적인 변수를 고려하여 미결정자를 추정하였기 때문에 미결정자의 오분류율이 MAR 가정에서의 오분류율보다 감소하고 나아가 전체에서 미결정자가 차지하는 비율이 증가함에 따라 전체의 오분류율이 더욱 감소함을 발견하였다.

거리와 고도의 지수를 구분한 수정거리고도비율법의 분석 (Analysis of Modified Distance-and-Elevation Ratio Method with Different Exponents of Distance and Elevation)

  • 유주환
    • 한국수자원학회논문집
    • /
    • 제48권5호
    • /
    • pp.357-365
    • /
    • 2015
  • 결측 강수량을 보완하기 위한 방법으로 사용되고 있는 거리고도비율법에 포함되어 있는 거리와 고도차의 지수는 동일하게 제곱으로 고정되어 있으나 본 연구에서는 이 두 개의 지수를 각각 분리하여 분석하였다. 적용 사례로 한강 유역에 있는 평창을 기준 관측소로 하고 주변에 있는 5개 지표 관측소(방림, 수주, 청옥산, 진부, 영월1)의 10년(2004~2013년) 간 326개 시우량에 적용한 결과 적합한 거리와 고도의 지수 값은 각각 3.7, 0.57로 나타났다. 수정거리고도비율법의 거리와 고도의 지수는 결측 보완 또는 보간을 필요로 하는 위치의 지형공간적인 특성에 따라 맞게 적용해야 한다.