• 제목/요약/키워드: 결측치

검색결과 100건 처리시간 0.03초

펫 헬스 케어 서비스를 위한 GATs 기반 센서 데이터 처리 기법 설계 (Design of Sensor Data's Missing Value Handling Technique for Pet Healthcare Service based on Graph Attention Networks)

  • 이지훈;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.463-465
    • /
    • 2021
  • 센서 데이터는 여러가지 원인으로 인해 데이터 결측치가 발생할 수 있으며, 결측치로 인한 데이터의 처리 방식에 따라 데이터 분석 결과가 다르게 해석될 수 있다. 이는 펫 헬스 케어 서비스에서 치명적인 문제로 연결될 수 있다. 따라서 본 논문에서는 펫 웨어러블 디바이스로부터 수집되는 다양한 센서 데이터의 결측치를 처리하기 위해 GATs(Graph Attention neTworks)와 LSTM(Long Short Term Memory)을 결합하여 활용한 데이터 결측치 처리 기법을 제안한다. 펫 웨어러블 디바이스의 센서 데이터가 서로 연관성을 가지고 있다는 점을 바탕으로 인접 노드의 Attention 수치와 Feature map을 도출한다. 이후 Prediction Layer 를 통해 결측치의 Feature 를 예측한다. 예측된 Feature 를 기반으로 Decoding 과정과 함께 결측치 보간이 이루어진다. 제안된 기법은 모델의 변형을 통해 이상치 탐지에도 활용할 수 있을 것으로 기대한다.

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

범주형 자료의 결측치 추정방법 성능 비교 (Comparing Accuracy of Imputation Methods for Categorical Incomplete Data)

  • 신형원;손소영
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.33-43
    • /
    • 2002
  • 범주형 데이터의 결측치 추정을 위하여 최빈 범주법, 로지스틱 회귀분석, 연관규칙과 같은 다양한 방법이 연구되어 왔다. 본 연구에서는 이러한 방법의 추정 값을 결합하는 신경망 융합과 투표융합 방법을 제안하고 이의 성능을 시뮬레이션을 이용하여 비교하였다. 실험에 사용된 데이터의 특성을 나타내는 인자로는 (1) 입출력 변수간의 연결함수, (2) 데이터의 크기, (3) 노이즈의 크기 (4) 결측치의 비율, (5) 결측발생 함수를 사용하였다. 분석결과는 다음과 같다. 데이터의 크기가 작고 결측 발생 비율이 높으면 최빈 범주법, 연관규칙, 신경망 융합의 성능이 높게 나타났으며 데이터의 크기가 작고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 로지스틱 회귀분석, 신경망 융합의 성능이 높게 나타났다. 데이터의 크기가 크고, 결측치의 비율이 낮으면서, 노이즈가 크고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 신경망 융합의 성능이 높게 나타났다.

결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법 (A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information)

  • 박윤주;김영진;박정선;김규찬;고인송;정호열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.99-107
    • /
    • 2005
  • 본 논문에서는 단일염기변이(SNP: Single Nucleotide Polymorphism)와 같은 유전형(Rcnotype)자료에서 결측치가 발생하였을 경우 유전형 자료의 특이성을 고려해 자료 원래의 정보손실을 최소화하는 대치법인 연관불균형 기반의 대치법(linkage disequilibrium- based imputation)과 일배체형 기반의 대치법(haplotype-based imputation)을 제시한다. 이러한 결측치 대치는 실험상에서 발생하는 결측치에 의한 중요한 정보의 손실을 최소화 한다는 점에서 필요한 방법이다. 일반적으로 그동안 생물학 자료의 결측치 대치는 대부분 주형질 대치법(major allele imputation)이 활용되어왔는데 유전형 자료에서의 이 방법의 사용은 사료의 특이성으로 인하여 결측치에 대한 높은 오차율(error rate)을 보임으로서 자료의 신뢰성을 떨어뜨릴 수 있다. 본 논문에서는 유전형 자료인 단일염기변이 자료의 시뮬레이션을 통하여 기존의 주형질 대치법과 논문에서 제안된 연관불균형 기반의 대치법과 일배체형 기반의 대치법을 비교하고 그 결과를 보여 준다.

효과적인 결측치 보완을 통한 다층 퍼셉트론 기반의 전력수요 예측 기법 (A Multilayer Perceptron-Based Electric Load Forecasting Scheme via Effective Recovering Missing Data)

  • 문지훈;박성우;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.67-78
    • /
    • 2019
  • 정확한 전력수요 예측은 스마트 그리드의 효율적인 운영에 있어 매우 중요하다. 최근 IT 기술이 획기적으로 발전되면서, 인공지능 기법을 이용한 빅 데이터 처리를 기반으로 정확한 전력수요를 예측하는 많은 연구가 진행되고 있다. 이러한 예측 모델은 주로 외부 요인과 과거 전력수요를 독립 변수로 사용한다. 하지만, 다양한 내부적 또는 외부적 원인으로 전력수요 데이터의 결측치가 발생하게 되면 정확한 예측 모델을 구성하기가 어렵다. 이에 본 논문에서는 랜덤 포레스트 기반의 결측치 데이터 보완 기법을 제안하고, 보완된 데이터를 기반으로 한 다층 퍼셉트론 기반의 전력수요 예측 모델을 구성한다. 다양한 실험을 통해 제안된 기법의 예측 성능을 입증한다.

데이터 저장소를 이용한 이상치 및 결측치 보정 시스템 (Adjustment System for Outlier and Missing Value using Data Storage)

  • 김광호;김능회
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.47-53
    • /
    • 2023
  • 현재 4차 산업혁명 시대에 오면서 다양하고 많은 데이터가 쌓여왔다. 농업사회도 스마트팜이나 노지에서 작물의 성장에 영향을 주는 환경 데이터를 센서로 수집해왔다. 환경 데이터는 측정하는 지역에 따라 특징을 가지고, 측정하는 시기에 따라서도 특징을 보이는 데이터이다. 수집된 농업 데이터를 활용해 통계, 인공지능을 사용하여 성장을 예측하거나 수확량을 예측하는 연구가 진행되어왔다. 이러한 연구는 기반이 되는 데이터에 따라 결과가 크게 차이난다. 이에 성능 향상을 위해서 데이터의 품질을 개선하기 위한 연구 또한 지속해서 진행되어왔다. 높은 성능을 위하여 많은 양의 데이터가 필요하고, 양이 충분하여도 데이터의 이상치나 결측치가 있을 경우 결과에 큰 영향을 미친다. 따라서 이상치와 결측치 값의 보정은 데이터 전처리 과정에서 필수이다. 이에 본 논문에서는 실제 농가에서 수집된 데이터를 통합하고 이를 기반으로 이상치와 결측치 보정 시스템을 제안한다.

Minimac3와 Beagle 프로그램을 이용한 한우 770K chip 데이터에서 차세대 염기서열분석 데이터로의 결측치 대치의 정확도 분석 (Imputation Accuracy from 770K SNP Chips to Next Generation Sequencing Data in a Hanwoo (Korean Native Cattle) Population using Minimac3 and Beagle)

  • 안나래;손주환;박종은;채한화;장길원;임다정
    • 생명과학회지
    • /
    • 제28권11호
    • /
    • pp.1255-1261
    • /
    • 2018
  • DNA 염기서열의 발전과 많은 단일염기서열변이 정보(Single Nucleotide polymorphism, SNP)의 발굴은 유전 분석을 가능하게 만들었다. 단일염기서열변이 정보가 사람의 유전체뿐만 아니라 가축의 유전체에서도 이용할 수 있게 됨에 따라서 SNP 칩 마커를 통해 유전자형의 분석이 가능하게 되었다. 여러 유전자형 대치프로그램 중에서도 Minimac3 소프트웨어는 비교적 정확성이 높고, 계산의 효율성을 위해 분석을 단순화하여 유전자형의 결측치 대치 분석 시간을 단축시킨다. 따라서 본 연구에서는 Minimac3 프로그램을 사용하여 한우 1,226두 770K SNP 칩 데이터와 311두 차세대 염기서열분석 데이터를 이용하여 유전자형 결측치 대치를 실행해 보았다. 그 결과 염색체별 정확도는 약 94~96%의 정확도를 나타냈으며, 개체별 정확도는 약 92~98%의 정확도를 나타냈다. 유전자형의 결측치 대치의 완료 후, R Square ($R^2$) 값이 0.4 이상인 SNP는 총 SNP의 약 91%였다. $R^2$ 값이 0.6 이상인 SNP는 84%였으며, $R^2$ 값이 0.8 이상인 SNP는 70%였다. 대립유전자형빈도 차이를 기준으로 (0, 0.025), (0.025, 0.05), (0.05, 0.1), (0.1, 0.2), (0.2, 0.3), (0.3, 0.4), (0.4, 0.5)의 7구간에 해당하는 $R^2$ 값은 64~88%였다. 결측치 대치의 총 분석 시간은 약 12시간이 걸렸다. 추후의 유전체 데이터 세트의 크기와 복잡성이 증가하는 SNP 칩 연구에서 Minimac3를 사용한 유전체 결측치 대치법은 한우의 판별에 있어서 칩 데이터의 신뢰도를 향상 시킬 수 있을 것으로 본다.

Z 값을 활용한 결측치 대체에 관한 연구 (A Study on Replacement of Missing Data using Z)

  • 박승현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.47-48
    • /
    • 2020
  • 데이터에 결측치가 존재할 때 어떤 데이터로 결측치를 대체시켜야 원래의 데이터에 가장 근접한 데이터를 만들어낼 수 있는지에 관한 연구. Z 값을 사용하면 평균으로 결측치를 대체시키는 것보다 더 정확한 결과를 도출해낼 수 있다.

가중 적응 최근접 이웃을 이용한 결측치 대치 (On the use of weighted adaptive nearest neighbors for missing value imputation)

  • 염윤진;김동재
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.507-516
    • /
    • 2018
  • 결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.

국가수문자료 통계처리 기준 개선방안 연구 (Study on the Improvement of Statistical Analysis Standard for Hydrologic Data)

  • 오창열;백창현;김휘린;정성원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.452-452
    • /
    • 2011
  • 통계자료는 국가의 정책을 수립하는데 가장 기초가 되는 자료로서 국가 경영에 필수적인 인프라에 해당하며, 국가정책 수립의 근거자료로 활용하기 위해서는 생산되는 통계자료의 신뢰성이 담보되어야 한다. 신뢰성은 생산되는 통계자료의 정확성을 가장 기본으로 하며, 더 나아가서는 시기적절하게 통계자료를 생산하고 수요자 중심의 통계지표를 발굴 제시했을 때 통계자료로서 의미를 갖게 된다고 할 수 있다. 본 연구는 통계자료가 갖는 의미에 맞고 효과적인 통계자료를 생산하기 위하여 현재 발간중인 한국수문조사연보의 통계량과 산정기준, 적용성 및 활용방안에 대한 종합적인 검토를 통해 표준화된 통계처리 기준을 제시하고자 한다. 이를 위해 강수량과 수위, 유량측정성과 및 유량자료 통계량 44종에 대한 통계량별 결측치 처리기준과 활용성 및 결측치 처리방안에 대하여 검토로 통계값의 일관성 및 객관성이 확보될 수 있도록 개선방안을 마련하였다. 더불어 자연현상에 대한 명확한 해석이 가능하고, 기후변화에 따른 기왕의 극치자료와 비교검토가 용이하도록 통계량 표 개선과 이동시간 기준 최다강수량 등 신규 통계값에 대한 산정기준 방안을 제안하였다. 본 연구의 결과로 제시한 신규 통계량 정보를 추가적으로 제시하고, 표준화된 통계처리 기준에 따라 통계값을 산정할 경우 통계 자료의 일관성 및 객관성이 확보될 수 있을 것으로 기대된다.

  • PDF