• 제목/요약/키워드: 결측치 처리

검색결과 24건 처리시간 0.031초

효과적인 결측치 보완을 통한 다층 퍼셉트론 기반의 전력수요 예측 기법 (A Multilayer Perceptron-Based Electric Load Forecasting Scheme via Effective Recovering Missing Data)

  • 문지훈;박성우;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.67-78
    • /
    • 2019
  • 정확한 전력수요 예측은 스마트 그리드의 효율적인 운영에 있어 매우 중요하다. 최근 IT 기술이 획기적으로 발전되면서, 인공지능 기법을 이용한 빅 데이터 처리를 기반으로 정확한 전력수요를 예측하는 많은 연구가 진행되고 있다. 이러한 예측 모델은 주로 외부 요인과 과거 전력수요를 독립 변수로 사용한다. 하지만, 다양한 내부적 또는 외부적 원인으로 전력수요 데이터의 결측치가 발생하게 되면 정확한 예측 모델을 구성하기가 어렵다. 이에 본 논문에서는 랜덤 포레스트 기반의 결측치 데이터 보완 기법을 제안하고, 보완된 데이터를 기반으로 한 다층 퍼셉트론 기반의 전력수요 예측 모델을 구성한다. 다양한 실험을 통해 제안된 기법의 예측 성능을 입증한다.

군집화 및 특성도를 이용한 결측치 대체 방법 (Imputation method for missing data based on clustering and measure of property)

  • 김성현;김동재
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.29-40
    • /
    • 2018
  • 데이터를 수집함에 있어 여러 가지 이유로 결측이 발생하게 된다. 결측치는 분석 및 결과에 적지 않은 영향을 미치므로, 이를 해결하기 위해 결측치를 처리하는 다양한 방법들이 연구되었다. 반복 측정 자료에서 초기 시점의 측정값이 어떠한지에 따라서 뒤의 시점 측정값이 어느 정도 영향을 받을 수도 있을 것으로 생각된다. 하지만 기존 방법에서는 이러한 개념을 이용한 결측치 대체가 없었으므로 본 연구에서는 반복 측정 자료에서 초기 시점을 이용한 군집화 및 Kim과 Kim (2017)이 제안한 특성도를 이용하여 새로운 결측치 대체 방법을 제안하였다. 또한 여러 반복 측정 자료를 이용하여 Monte Carlo 모의실험을 통하여 기존 결측 대체 방법과 제안 방법의 여러 대체 성능을 비교해 보았다.

센서 데이터 합성을 통한 반려동물 행동 감지 (Pet Behavior Detection through Sensor Data Synthesis)

  • 김형주;박찬;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.606-608
    • /
    • 2022
  • 센서 데이터를 활용한 행동 감지 연구는 인간 행동 인식을 선행연구로 진행되었으며, 인식의 정확도를 높이기 위해 전처리, 보간, 증강 등을 통한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 시계열 센서 데이터 증강을 통하여 반려동물의 행동 감지를 제안한다. ODROID 단일 보드 컴퓨터와 6축 센서(가속도, 자이로) 데이터를 탑재한 소형 디바이스를 사용하여 블루투스 통신을 통해 웹 서버 DB에 저장한다. 저장된 데이터는 이상치, 결측치 처리 후 정규화를 통해 시퀀스를 구성하는 전처리 과정을 거친다. 이후 GAN을 기반으로 한 시계열 데이터 증강을 진행한다. 이때, 데이터 증강은 입력된 텍스트에 따라 센서 데이터로 변환하여 데이터를 증강한다. 학습된 딥러닝 모델을 바탕으로 행동을 감지 후 평가 지표에 따라 모델 성능을 검증한다.

이형 데이터 기반의 예측 모델 생성을 위한 데이터 정제 방법론 (A Practical Methodology of Preparing Data for Generating Prediction Model using Heterogeneous Data Sources)

  • 이은경;유연택;이건수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.674-677
    • /
    • 2019
  • 예측 모델은 어떤 상황이 주어졌을 때, 다음 상황에 대한 예측을 수행하는 시스템으로, 현재 상황을 올바르게 인지하고, 그 인지된 상황을 토대로 미래를 예측할 수 있는 지능을 갖고 있어야 한다. 이러한 예측 모델이 올바르게 동작하기 위해서는 상황을 올바르게 인지하는 기능이 우선되어야 하지만, 원시 데이터로부터 상황을 인지하기 위해서는 원시 데이터를 올바르게 해석하기 위한 데이터 정제 과정이 필요하다. 이에 본 연구에서는 다양한 형태의 원시 데이터를 예측 모델의 유효한 입력 값으로 변환시키기 위한 데이터 정제 방법을 제안한다. 본 방법은 윈시 데이터의 형태 정의, 데이터 정규화, 속성 관계 검증, 결측치 보정, 그리고 신뢰도 적용의 5단계로 구성되어 있다.

다중 융합 네트워크 기반 이동 객체 행동 인식 (Behavior Recognition of Moving Object based on Multi-Fusion Network)

  • 김진아;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.641-642
    • /
    • 2022
  • 단일 데이터로부터의 이동 객체에 대한 행동 인식 연구는 데이터 수집 과정에서 발생하는 노이즈의 영향을 크게 받는다. 본 논문은 영상 데이터와 센서 데이터를 이용하여 다중 융합 네트워크 기반 이동 객체 행동 인식 방법을 제안한다. 영상으로부터 객체가 감지된 영역의 추출과 센서 데이터의 이상치 제거 및 결측치 보간을 통해 전처리된 데이터들을 융합하여 시퀀스를 생성한다. 생성된 시퀀스는 CNN(Convolutional Neural Networks)과 LSTM(Long Short Term Memory)기반 다중 융합 네트워크 모델을 통해 시계열에 따른 행동 특징들을 추출하고, 깊은 FC(Fully Connected) 계층을 통해 특징들을 융합하여 행동을 예측한다. 본 연구에서 제시된 방법은 사람을 포함한 동물, 로봇 등의 다양한 객체에 적용될 수 있다.

무응답을 포함하는 범주형 자료의 분석 (Analysis of categorical data with nonresponses)

  • 박태성;이승연
    • 응용통계연구
    • /
    • 제11권1호
    • /
    • pp.83-95
    • /
    • 1998
  • 본 논문에서는 여론조사를 비롯한 표본조사에서 얻어지는 범주형 자료에서 결측치(missing observation)나 무응답(nonresponse)이 발생했을 때 이러한 자료를 적절하게 처리하여 분석할 수 있는 통계모형을 소개하고 실제 사례로서 1948년도에 미국에서 실시한 대통령 선거에 대한 여론조사 자료를 분석하였다. 당시 미국 여론조사 기관에서는 Dewey 후보가 압승을 거둘 것으로 예상을 했지만 실제 선거에서는 Truman 후보가 승리했었다.

  • PDF

2×2 교차계획법에서 결측치가 있을 때의 결측치 처리 방법 비교에 관한 연구 (Comparison of Single Imputation Methods in 2×2 Cross-Over Design with Missing Observations)

  • 조보배;김동재
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.529-540
    • /
    • 2015
  • 의과학 분야에서 교차계획법은 임상시험을 통한 두 처리의 비교 검정에 이용되고 있으며 생물학적 동등성 시험에 자주 이용되고 있다. $2{\times}2$ 교차계획법에서 2시기에 결측치가 발생했을 때 통상적으로 결측치가 발생한 개체를 삭제하고 모수적 검정을 한다. 하지만 소표본으로 진행되는 $2{\times}2$ 교차계획법에서 일부 관측치의 삭제가 통계적 분석에 크게 영향을 미칠 수 있다. 본 논문에서는 소표본으로 이루어지는 $2{\times}2$ 교차계획법에서 2시기에 결측치가 발생했을 때 단순대체법들을 적용한 후 Hills-Armitage (1979)의 모수적 검정법과 Koch (1972)와 Kim (1999)이 제안한 비모수적 검정법들의 제 1종오류와 검정력을 몬테카를로 모의실험(Monte-Carlo simulation)을 통하여 비교하였다.

실시간 교통자료 기반 고속도로 교통사고 발생 가능성 추정 모형 (Estimation of Freeway Accident Likelihood using Real-time Traffic Data)

  • 박준형;오철;남궁성
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.157-166
    • /
    • 2008
  • 본 연구에서는 실시간으로 수집되는 고속도로의 검지기 자료를 이용하여 교통사고 발생 가능성을 확률적 관측값으로 나타낼 수 있는 모형을 개발하였다. 사고발생 지점을 기준으로 상류부 및 하류부에서 수집된 사고발생 이전의 교통자료를 모형의 독립변수로 설정하였다. 이항 로지스틱 회귀분석 기법을 적용하여 교통사고 발생을 유발할 잠재력이 높은 교통상황을 교통사고와는 무관한 교통상황으로부터 추출하는 분류문제(classification problem)로 설정하고 모형을 개발하였다. 최근 3년간 서해안 고속도로에서 발생한 사고자료와 검지기 자료를 맵핑하였으며, 유효한 검지기 자료를 모형에 적용하기 위하여 이상치 제거 및 결측치 보정을 위한 자료처리 과정을 별도로 수행하였다. 본 연구에서 개발한 모형에서 산출되는 계량화된 교통사고 발생가능성은 고속도로상에서 실시간 경고정보 제공 및 다양한 교통운영관리 전략의 교통안전 측면에서의 효과를 평가하는데 유용하게 적용될 수 있을 것으로 기대된다.

히스토리컬 프로파일 구축과 시.공간 자료합성에 의한 단속류 통행시간 예측 (Travel Time Forecasting in an Interrupted Traffic Flow by adopting Historical Profile and Time-Space Data Fusion)

  • 여태동;한경수;배상훈
    • 대한교통학회지
    • /
    • 제27권2호
    • /
    • pp.133-144
    • /
    • 2009
  • 현재 국내에서는 지역간 교통의 이동성 및 안전성을 향상시키기 위해 국도를 대상으로 ITS사업을 추진중에 있다. 이러한 ITS 사업을 통해 교통정보를 이용자에게 실시간으로 제공해 줌으로써 기존의 교통시설의 이용을 극대화 하는데 목적을 두고 있다. 이러한 정보 제공시 운전자에게 보다 정확한 통행시간정보를 제공해 주는것이 가장 중요하므로 본 연구에서는 자료의 전처리를 통해 원시데이터의 이상치 제거 및 결측처리를 실시하였다. 이를 통해 통행시간 예측의 기본이 되는 원시데이터의 정확성을 향상시켜 정보의 신뢰도를 높일 수 있는 방안을 모색하였다. 그리고 통행시간 예측을 위해 단속류 도로의 특성을 보다 정확히 반영할 수 있는 히스토리컬 프로파일 모형을 구축하였으며 실제 교통류의 특성을 적극적으로 반영하기 위해 보정식을 개발하였다. 따라서 제안된 모형과 히스토리컬 프로파일 모형과 보정식을 통해 통행시간을 예측한 후 기존의 방식인 신경망 모형, 칼만필터 모형과의 비교검증을 실시하였다. 결과적으로 일반적인 상황에서는 칼만필터 모형과 비슷한 예측력을 보였으나, 첨두시나 유고상황에서는 개발모형이 실제 교통흐름을 상대적으로 정확히 반영하여 예측을 수행함을 확인하였다.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.