• Title/Summary/Keyword: 데이터예측

Search Result 6,726, Processing Time 0.039 seconds

Development of fecal coliform prediction model using random forest method (랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발)

  • Seo, Il Won;Choi, Soo Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

P-TAF: A Big Data-based Platform for Total Air Traffic Forecast (빅데이터 기반 항공 수요예측 통합 플랫폼 설계 및 실증)

  • Jung, Jooik;Son, Seokhyun;Cha, Hee-June
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.281-282
    • /
    • 2021
  • 본 논문에서는 항공 수요예측을 위한 빅데이터 기반 플랫폼의 설계 및 실증 결과를 제시한다. 항공 수요예측 통합 플랫폼은 항공산업 관련 데이터를 Open API, RSS Feed, 웹크롤러(Web Crawler) 등을 이용하여 수집 및 분석하여 자체 개발한 항공 수요예측 알고리즘을 기반으로 결과를 시각화하여 보여주도록 구현되어 있다. 또한, 제안하는 플랫폼의 사용자 인터페이스를 통해 변수 설정을 하여 단위별(Global, National 등), 기간별(단기, 중장기 등), 유형별(여객, 화물 등) 예측 통계 자료를 도출할 수 있다. 플랫폼의 성능 검증을 위해 정형화된 데이터를 비롯하여 소셜네트워크서비스(SNS), 검색엔진 등에서 수집한 비정형 데이터까지 활용하여 특정 키워드의 빈도와 특정 노선에 대한 항공 수요간 상관관계를 분석하였다. 개발한 통합 플랫폼의 지능형 항공 수요예측 알고리즘을 통해 전반적인 공항 운영 및 공항 운영 정책 수립에 기여할 것으로 예상한다.

  • PDF

Explainable Solar Irradiation Forecasting Based on Conditional Random Forests (조건부 랜덤 포레스트 기반의 설명 가능한 일사량 예측)

  • Moon, Jihoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.323-326
    • /
    • 2020
  • 태양광 발전은 이산화탄소 배출로 인한 기후 변화에 대응하는 주요 수단으로 인식되어 수요와 필요성이 급격하게 증가하고 있다. 최적의 태양광 발전 시스템의 운영을 위해서는 정교한 전력수요 및 태양광 발전량 예측 모델이 요구되며, 온도 및 일사량은 태양광 발전량 예측 모델의 필수적인 입력 변수이다. 하지만, 한국 기상청의 동네예보는 일사량에 관한 예측값을 제공하지 않아 정교한 태양광 발전량 예측 모델을 구축하는 것은 어렵다. 이를 위해 일사량 예측 기법에 관한 많은 연구사례가 보고되고 있지만, 다수의 연구들은 충분한 데이터 셋을 이용하여 일사량 예측 모델을 개발하였다. 초기 태양광 발전 시스템 운영을 위해서는 불충분한 데이터 셋을 이용한 예측 모델 개발이 필요하나 이에 대한 사례는 불충분하다. 본 논문은 실제 태양광 발전 시스템에서 수집된 불충분한 데이터 셋을 이용한 단기 일사량 예측 기법을 제안한다. 먼저, 기상청 동네예보의 다양한 기상 요인들을 이용하여 일사량 예측 모델을 위한 입력 변수를 구성한다. 다음으로, 조건부 랜덤 포레스트를 이용하여 일사량 예측 모델을 구성하며, 설명 가능한 일사량 예측뿐만 아니라 더욱더 많은 데이터 셋을 학습하기 위해 시계열 교차검증을 수행한다. 실험 결과, 제안한 기법은 다른 예측 기법들보다 높은 예측 정확도를 보일 뿐만 아니라 설명 가능한 예측 결과를 제시할 수 있음을 보여준다.

Multi-horizon Time Series Forecasting Using Temporal Fusion Transformer (Temporal Fusion Transformer 모델을 활용한 다층 수평 시계열 데이터 분석)

  • Kim, Inkyung;Kim, Daehee;Lee, Jaekoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.479-482
    • /
    • 2021
  • 시계열 형태의 데이터는 다양한 분야에서 수집되고 응용되기 때문에 정확한 시계열 예측은 많은 분야에서 운영 효율성을 높일 수 있는 중요한 분석 방법으로 고려된다. 그중 다층 수평 예측은 사용자에게 전반적인 시계열 데이터 경향성을 제공할 수 있다. 하지만 다양한 정보를 포함하는 시계열 데이터는 데이터에 내재한 이질성(heterogeneity)까지 포괄적으로 고려한 방법을 통해서만 정확한 예측을 할 수 있다. 하지만 지금까지 많은 시계열 분석 모델들이 데이터의 이질성을 반영하지 못했다. 이러한 한계를 보완하고자 우리는 Temporal Fusion Transformer 모델을 사용하여 실생활과 밀접한 관련이 있는 데이터에 적용하여 이질성을 고려한 향상된 예측을 수행하였다. 실제, 주식 데이터와 미세 먼지 데이터와 같은 실생활 시계열 데이터에 적용하였고 실험 결과 기존 모델보다 Mean Squared Error(MSE)가 0.3487 낮은 것을 확인하였다.

Monitoring and adaptive prediction of the dynamically changed information (동적으로 변화하는 정보에 대한 모니터링 및 적응적 변화 예측)

  • Park, Dae Wook;Lee, Won Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.230-232
    • /
    • 2007
  • 최근의 온라인 응용 환경에서는 다양한 종류의 데이터 스트림을 다루고 있으며 이러한 데이터 스트림은 빠른 속도로 무한히 생성되고 실시간의 빠른 처리를 필요로 한다. 따라서 데이터 스트림 실시간 처리 및 분석 작업에서는 데이터 스트림을 지속적으로 모니터링하여 앞으로의 변화와 이에 따른 부하를 예측하고 성능을 조절하는 일이 필요하다. 본 논문에서는 끊임없이 발생하는 데이터를 관찰하여 데이터가 발생하는 패턴을 찾아내고, 찾아낸 패턴을 기반으로 미래의 특정 시점에서 발생할 데이터 값을 미리 예측하는 효율적인 기법을 제안한다. 무한한 양의 데이터를 제한된 크기의 메모리 내에서 처리하여 현재부터 과거 특정시점까지 발생한 데이터의 패턴을 가장 정확히 일반화할 수 있는 함수를 찾아내고 그 함수를 기반으로 미래에 발생할 데이터의 값을 예측한다.

Application of data preprocessing to improve the performance of the metaheuristic optimization algorithm-deep learning combination model (메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 성능 개량을 위한 데이터 전처리의 적용)

  • Ryu, Yong Min;Lee, Eui Hoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.114-114
    • /
    • 2022
  • 딥러닝의 학습 및 예측성능을 개선하기 위해서는 딥러닝 기법 내 연산과정의 개선과 함께 학습 및 예측에 사용되는 데이터의 전처리 과정이 중요하다. 본 연구에서는 딥러닝의 성능을 개량하기 위해 제안된 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형과 데이터 전처리 기법을 통해 댐의 수위를 예측하였다. 수위예측을 위해 Multi-Layer Perceptron(MLP), 메타휴리스틱 최적화 알고리즘인 Harmony Search(HS)와 딥러닝을 결합한 MLP using a HS(MLPHS) 및 Exponential Bandwidth Harmony Search with Centralized Global Search(EBHS-CGS)와 딥러닝을 결합한MLP using a EBHS-CGS(MLPEBHS)를 통해 댐의 수위를 예측하였다. 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 학습 및 예측성능을 개선하기 위해 학습 및 예측을 위한 자료를 기반으로 데이터 전처리기법을 적용하였다. 적용된 데이터 전처리 기법은 정규화, 수위구간별 사상(Event)분리 및 수위 변동에 대한 자료의 구분이다. 수위예측을 위한 대상유역은 금강유역에 위치한 대청댐으로 선정하였다. 대청댐의 수위예측을 위해 대청댐 상류에 위치하는 수위관측소 3개소를 선정하여 수위자료를 취득하였다. 각 수위관측소에서 취득한 수위자료를 입력자료로 설정하였으며, 대청댐의 수위자료를 출력자료로 설정하여 메타휴리스틱 최적화 알고리즘-딥러닝 모형의 학습을 진행하였다. 각 수위관측소 및 대청댐에서 취득한 수위자료는 2010년부터 2020년까지 총 11년의 일 단위 수위자료이며, 2010년부터 2019년까지의 자료를 학습자료로 사용하였으며, 2020년의 자료를 예측 및 검증자료로 사용하였다.

  • PDF

Correction of Drifter Data Using Recurrent Neural Networks (순환신경망을 이용한 뜰개의 관측 데이터 보정)

  • Kim, Gyoung-Do;Kim, Yong-Hyuk
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.3
    • /
    • pp.15-21
    • /
    • 2018
  • The ocean drifter is a device for observing the ocean weather by floating off the sea surface. The data observed through the drifter is utilized in the ocean weather prediction and oil spill. Observed data may contain incorrect or missing data at the time of observation, and accuracy may be lowered when we use the data. In this paper, we propose a data correction model using recurrent neural networks. We corrected data collected from 7 drifters in 2015 and 8 drifters in 2016, and conducted experiments of drifter moving prediction to reflect the correction results. Experimental results showed that observed data are corrected by 13.9% and improved the performance of the prediction model by 1.4%.

On-Device Gender Prediction Framework Based on the Development of Discriminative Word and Emoticon Sets (특징적 단어 및 이모티콘 집합을 활용한 모바일 기기 내 성별 예측 프레임워크)

  • Kim, Solee;Choi, Yerim;Kim, Yoonjung;Park, Kyuyon;Park, Jonghun
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.11
    • /
    • pp.733-738
    • /
    • 2015
  • User demographic information is necessary in order to improve the quality of personalized services such as recommendation systems. Mobile data, especially text data, is known to be effective for prediction of user demographic information. However, mobile text data has privacy issues so that its utilization is limited. In this regard, we introduce an on-device gender prediction framework utilizing mobile text data while minimizing the privacy issue. Discriminative word and emoticon sets of each gender are constructed from web documents written by authors of each gender. After gender prediction is performed by comparing discriminative word and emoticon sets with a user's mobile text data, an ensemble method that combines two prediction results draws a final result. From experiments conducted on real-world mobile text data, the proposed on-device framework shows promising results for gender prediction.

Predicting the future number of failures based on the field failure summary data (필드 고장 요약 데이터를 활용한 미래 고장수의 예측)

  • Baik, Jai-Wook;Jo, Jin-Nam
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.4
    • /
    • pp.755-764
    • /
    • 2011
  • In many companies field failure data is used to predict the future number of failures, especially when an unexpected failure mode happens to be a problem. It is because they want to predict the number of spare parts needed and the future quality warranty cost associated with the part based on the predictions of the future number of failures. In this paper field summary data is used to predict the future number of failures based on an appropriate distribution. Other types of data are also investigated to identify the appropriate distribution.

A study on improvement of prediction by edge line for moving picture compression (동영상 압축에서 주축을 이용한 움직임 예측의 개선에 관한 연구)

  • 차경환;문중수;김재호
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.853-856
    • /
    • 2000
  • 영상통신에 대한 관심이 다방면에서 증가되고 있고 동영상 압축에 있어서 복원 이미지 개선이나 압축 데이터의 감소에 대한 연구가 활발이 진행되고 있다. 본 논문에서는 움직임 예측 블록에 강한 직선 경계(edge)가 있는 경우 그 경계 주변에 원 이미지와 예측 이미지 간의 움직임 예측 오류가 많다는 점에 착안하여 움직임 예측블록을 개선 할 수 있는 알고리즘을 제안한다. 움직임예측 블록의 화소(pixel)값들을 이용해서 직선 경계의 각도와 움직임 예측 오류를 보상할 값을 구하고 경계위치에 보상함으로써 움직임 예측 오류 블록의 압축데이터가 감소된다. 기존의 동영상 압축 방법에 제안 방법을 첨가한 후 시뮬레이션 한 결과 동일한 PSNR에서 H.263+의 압축 데이터에 비해 평균 약 4% 개선된 압축데이터의 결과를 얻었다.

  • PDF