• 제목/요약/키워드: 시계열 데이터 예측

검색결과 537건 처리시간 0.021초

비정형, 정형 데이터의 이미지 학습을 활용한 시장예측 (MPIL: Market prediction through image learning of unstructured and structured data)

  • 이윤선;이주홍;최범기;송재원
    • 스마트미디어저널
    • /
    • 제10권2호
    • /
    • pp.16-21
    • /
    • 2021
  • 금융 시계열 분석은 현대 사회의 경제적, 사회적으로 매우 중요한 역할을 하며 세계 발전에 영향을 미치는 중요한 과제지만 많은 잡음(noise)과 불확실성 등의 어려움으로 인해 금융 시계열 분석 예측은 어려운 연구 주제이다. 본 논문에서는 비정형 데이터와 정형 데이터를 함께 이미지로 변환하여 시장을 예측 하는 방법(MPIL)을 제안한다. 시장 예측을 위해 n일 기간의 비정형 데이터인 SNS, 뉴스 데이터를 감정분석하고 정형 데이터인 시장 데이터를 GADF 알고리즘으로 이미지 변환하고 이미지 학습을 통해 n+1일의 가격을 예측하는 초단기 시장을 예측한다. MPIL은 평균 정확도 56%로 기존 시장예측에 사용되던 감정분석을 활용하여 LSTM으로 시장을 예측하는 모델 평균 정확도 50%보다 높은 정확도를 보였다.

인기 검색어의 순위 변화 예측 ('Hot Search Keyword' Rank-Change Prediction)

  • 김도형;강병호;이승룡
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.782-790
    • /
    • 2017
  • 인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.

결측치 비율이 높은 시계열 데이터 분석 및 예측을 위한 머신러닝 모델 구축 (Development of a Machine Learning Model for Imputing Time Series Data with Massive Missing Values)

  • 고방원;한용희
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.176-182
    • /
    • 2024
  • 본 연구는 결측치 비율이 높은 시계열 데이터를 효과적으로 분석하고 예측할 수 있는 머신러닝 모델을 구축하기 위해 다양한 결측치 처리 방법을 비교 분석하였다. 이를 위해 PSMF(Predictive State Model Filtering), MissForest, IBFI(Imputation By Feature Importance) 방법을 적용하였으며, 이후 LightGBM, XGBoost, EBM(Explainable Boosting Machines) 머신러닝 모델을 사용하여 예측 성능을 평가하였다. 연구 결과, 결측치 처리 방법 중에서는 MissForest와 IBFI가 비선형적 데이터 패턴을 잘 반영하여 가장 높은 성능을 나타냈으며, 머신러닝 모델 중에서는 XGBoost와 EBM 모델이 LightGBM 모델보다 더 높은 성능을 보였다. 본 연구는 결측치 비율이 높은 시계열 데이터의 분석 및 예측에 있어 비선형적 결측치 처리 방법과 머신러닝 모델의 조합이 중요함을 강조하며, 실무적으로 유용한 방법론을 제시하였다.

확률적 변동성 모형과 자기회귀이분산 모형의 비교분석 (Stochastic Volatility Model vs. GARCH Model : A Comparative Study)

  • 이용흔;김삼용;황선영
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.217-224
    • /
    • 2003
  • 시간의 경과에 따라 관측된 시계열 자료를 통해 데이터 분석을 하고 적당한 모형을 생성함으로써 미래 시점을 예측하는 방법들은 그 동안 많은 방법들이 제시되었고 연구 되고 있다. 그 중 최근 들어 과거의 데이터를 바탕으로 관측된 각 시점에서의 분산을 서로 다른 분산(조건부 이분산성)을 따른다고 가정하고, 이를 분석하는 모형(ARCH, GARCH, Stochastic Volatility(SV))들이 옵션 가격분석이나 환율 변화 등 경제 시계열자료의 예측 모형을 위하여 활발히 연구되고 있다. 본 논문에서는 한국의 KOSPI 데이터(1995년 1월 3일부터 2001년 12월 28일, 총 1906일)를 바탕으로 (조건부) 우도함수 모수 추정 방법을 이용한 GARCH(1,1) 모형과, MCMC 방법을 이용하여 모수를 추정한 SV 모형을 적용시켜 보고 각 모형들의 예측 정확도를 비교하여 보았다.

유사추론 기반 예측모형

  • 장용식;최윤정
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.581-585
    • /
    • 2007
  • 본 연구는 비선형적인 시계열 자료로부터 최신 데이터와 유사한 사례를 탐색하여 미래를 예측하기 위하여 유사추론 기법을 이용한 예측 알고리즘을 제안한다. 기존의 연구들이 최신 데이터와 과거 사례와의 유사성을 비교하기 위해 유클리디언 거리 또는 평균 제곱에러 등을 이용하나, 추세의 유사성을 고려하지는 않는다. 본 연구는 사례 구간 크기, 예측 오차, 평균차이 검증, 사례간 추세의 유사성 등 다차원적 유사추론 요인을 이용한 예측방법과 그 효과를 제시한다.

  • PDF

공간구문론을 활용한 가로체계와 공간변화 분석 - 서울 강남구를 사례로 (An Analysis of the street structure and the Morphological Change using Space Syntax in Kangnam, Seoul)

  • 김혜영;주용진;전철민
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 춘계학술대회
    • /
    • pp.69-70
    • /
    • 2010
  • 우리나라의 경우 시계열적인 토지 이용의 변화특성에 대한 경향 및 유형의 분석과 예측에 관련한 연구는 그 중요성에도 불구하고 미흡한 실정이다. 따라서 본 연구는 서울시 강남구의 구축한 시계열 데이터를 바탕으로 가로체계와 토지이용 자료를 사용하여 강남구 공간구조의 시계열 공간구조변화의 패턴분석을 목적으로 한다. 또한 토지이용 변화과정을 함께 비교분석한다. 강남구는 70년대 초부터 개발로 인해 많이 변화해온 지역이다. 이를 고려하여 60,70,80,90년의 시계열별 공간구문론을 도입하여 축선도(Axial map)를 통해 정량적 분석을 한다. 향후 도로의 접근성 측면에서의 토지이용변화 예측모델 방법론과 연계가 이루어진다면 공간변화를 효과적으로 추정할 수 있을 것이라 기대한다.

  • PDF

시계열 데이터와 랜덤 포레스트를 활용한 시간당 초미세먼지 농도 예측 (Hourly Prediction of Particulate Matter (PM2.5) Concentration Using Time Series Data and Random Forest)

  • 이득우;이수원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.129-136
    • /
    • 2020
  • 최근 환경 문제에서 중요한 화두로 떠오른 초미세먼지(PM2.5)는 미세먼지(PM10)보다도 작은 부유물질이다. PM2.5는 안구나 호흡기 질환을 일으키며 뇌혈관에까지 침투할 수 있어서 시간별로 수치를 예측하여 대비하는 것이 중요하다. 그러나 PM2.5의 생성과 이동에 관한 명확한 설명이 아직까지는 제시되지 않고 있어서 예측에 어려움이 따른다. 따라서 PM2.5 예측뿐만 아니라 예측 결과에 대한 설명력을 갖는 예측 방법이 제시될 필요가 있다. 본 연구에서는 서울시의 시간당 PM2.5를 예측하고자 하며, 이를 위해 각기 다른 지상관측 데이터를 시계열로 전처리하고 부트스트랩수를 조정한 랜덤 포레스트(Random Forest)를 데이터 학습 및 예측에 사용하는 방법을 제안한다. 이 방법은 예측 모델이 입력 데이터의 시각별 정보를 균형 있게 학습하게 하며 예측 결과에 대한 설명이 가능하다는 장점을 갖는다. 예측 정확도 평가를 위해 기존 모델과의 비교실험을 수행한 결과 제안 방법은 모든 레이블에서 가장 뛰어난 예측 성능을 보였으며, PM2.5의 생성과 관련된 변수와 중국의 영향과 관련된 변수가 예측 결과에 중요한 영향을 미치는 것을 보여주었다.

연령별 사고 추세 및 시계열 분석모형에 관한 연구 (The Study on Traffic Accident Trend by Age with Time Series Models)

  • 윤병조;고은혁;양승룡
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2016년 정기학술대회
    • /
    • pp.255-256
    • /
    • 2016
  • 우리나라의 2015년 노인 인구는 전체 인구의 13.1%를 차지하고 2015년 경찰청 교통사고통계에 의하면 65세 이상 노인의 교통사고 사망률은 전체 교통사고 사망률의 약 2.57배 높은 것으로 나타났다. 본 연구에서는 노인 운전자와 성인 운전자의 사망사고에 대한 시계열 모형을 확인하고 추세에 큰 차이가 있는지 확인하고자 하였다. 분석방법인 시계열분석은 단기예측에 신뢰성이 더 높은 것으로 알려져 있다. ARIMA 모형으로 시계열분석을 하기 위해서는 최소 50~60개 이상의 관측값이 필요하며 따라서 본 연구에서는 인천광역시를 대상으로 2010년부터 2015년까지 6년간의 교통사고 데이터를 노인 운전자와 성인 운전자로 구분하고 사망사고에 대한 시계열 모형을 확인하였다.

  • PDF

벡터자기회귀모형에 의한 금리스프레드의 예측 (Prediction of the interest spread using VAR model)

  • 김준홍;진달래;이지선;김수지;손영숙
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1093-1102
    • /
    • 2012
  • 본 연구에서는 다변량시계열모형인 VAR (vector autoregressive regression)모형에 의하여 금리 스프레드의 시계열예측을 수행하였다. 국내외 거시경제변수들 중에서 교차상관분석 및 그랜져인과 검정을 통하여 상호간에 설명력이 있는 변수들을 추출하여 VAR모형의 시계열변수로 사용하였다. 마지막 12개월의 예측치에 대한 MAPE (mean absolute percentage error)와 RMSE (root mean square error)에 근거하여 모형의 예측력을 단일변량 시계열모형인 AR (autoregressive regression) 모형과 비교하였다.

객체 탐지 모델을 활용한 전기 아크 위험성 예측 시스템 개발 (Development of Prediction of Electric Arc Risk using Object Dection Model)

  • 이규빈;김승연;안동혁
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.38-44
    • /
    • 2020
  • 전기에너지에 대한 높은 의존도 때문에 국내에서 발생하는 화재 중 전기화재가 상당한 비중을 차지한다. 국내에서 발생하는 전기화재 4건 중 3건이 전선의 단락이나 접촉 불량에 의한 전기 아크에 의해 발생했다. 전기 아크란 절연체 사이에서 발생하는 전기적 전류의 방전 현상으로 순간적으로 상당한 열을 내뿜는다. 아크에 의한 전기 화재를 줄이기 위해서 본 연구에서는 전기 아크 위험성 예측을 목표로 한다. 아크 감지기에서 아크 데이터를 수집하고 시간순대로의 아크 데이터를 기반으로 그래프로 변환하였다. 머신 러닝의 데이터 학습에 서로 다른 시계열 데이터의 수로 변환한 그래프들을 사용하였다. 생성된 학습 모델의 성능을 측정하기 위해서 테스트 데이터를 기반으로 평가를 진행하였다. 결과에서 예측 시 사용하는 시계열 아크 데이터의 수가 20개일 때 예측률이 86%로 우수함을 확인하였다.