• 제목/요약/키워드: 다변량 시계열

검색결과 80건 처리시간 0.022초

Movie Box-office Prediction using Deep Learning and Feature Selection : Focusing on Multivariate Time Series

  • Byun, Jun-Hyung;Kim, Ji-Ho;Choi, Young-Jin;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권6호
    • /
    • pp.35-47
    • /
    • 2020
  • 박스 오피스 예측은 영화 이해관계자들에게 중요하다. 따라서 정확한 박스 오피스 예측과 이에 영향을 미치는 주요 변수를 선별하는 것이 필요하다. 본 논문은 영화의 박스 오피스 예측 정확도 향상을 위해 다변량 시계열 데이터 분류와 주요 변수 선택 방법을 제안한다. 연구 방법으로 한국 영화 일별 데이터를 KOBIS와 NAVER에서 수집하였고, 랜덤 포레스트(Random Forest) 방법으로 주요 변수를 선별하였으며, 딥러닝(Deep Learning)으로 다변량 시계열을 예측하였다. 한국의 스크린 쿼터제(Screen Quota) 기준, 딥러닝을 이용하여 영화 개봉 73일째 흥행 예측 정확도를 주요 변수와 전체 변수로 비교하고 통계적으로 유의한지 검정하였다. 딥러닝 모델은 다층 퍼셉트론(Multi-Layer Perceptron), 완전 합성곱 신경망(Fully Convolutional Neural Networks), 잔차 네트워크(Residual Network)로 실험하였다. 결과적으로 주요 변수를 잔차 네트워크에 사용했을 때 예측 정확도가 약 93%로 가장 높았다.

다변량 시계열 분석에 기반한 쿠버네티스 오토-스케일링 개선 (An Improvement of Kubernetes Auto-Scaling Based on Multivariate Time Series Analysis)

  • 김용회;김영한
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권3호
    • /
    • pp.73-82
    • /
    • 2022
  • 오토-스케일링은 클라우드 컴퓨팅 기술이 ICT 핵심 기반 기술로 자리 잡을 수 있는 가장 중요한 기능 중 하나로써 사용자나 서비스 요청의 폭발적인 증가 또는 감소에도 시스템 자원과 서비스 인스턴스를 적절하게 확장 또는 축소하여 상황에 맞는 서비스의 안정성과 비용 대비 효과를 향상하는 기술이다. 하지만 특정 시스템 자원에 대한 모니터링 시점의 단일 메트릭 데이터를 기반으로 정책이 수립·실행되다 보니 이미 서비스에 영향이 있거나 실제 필요한 서비스 인스턴스를 세밀하게 관리하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해서 본 논문에서는 시스템 자원과 서비스 응답시간을 다변량 시계열 분석 모델을 사용하여 분석·예측하고 이를 기반으로 오토-스케일링 정책을 수립하는 방안을 제안한다. 이를 검증하기 위해 쿠버네티스 환경에서 커스텀 스케쥴러를 구현하고, 실험을 통해 쿠버네티스 기본 오토-스케일링 방식과 비교 분석한다. 제안하는 기법은 시스템 자원과 응답시간 사이의 영향에 기반한 예측 데이터를 활용하여 예상되는 상황에 대한 오토-스케일링을 선제적으로 실행함으로써 시스템의 안정성을 확보하고 서비스 품질이 저하되지 않는 범위내에서 필요한 만큼의 인스턴스를 세밀하게 관리할 수 있는 결과를 보인다.

시계열 데이터 결측치 처리 기술 동향 (Technical Trends of Time-Series Data Imputation)

  • 김에덴;고석갑;손승철;이병탁
    • 전자통신동향분석
    • /
    • 제36권4호
    • /
    • pp.145-153
    • /
    • 2021
  • Data imputation is a crucial issue in data analysis because quality data are highly correlated with the performance of AI models. Particularly, it is difficult to collect quality time-series data for uncertain situations (for example, electricity blackout, delays for network conditions). Thus, it is necessary to research effective methods of time-series data imputation. Many studies on time-series data imputation can be divided into 5 parts, including statistical based, matrix-based, regression-based, deep learning (RNN and GAN) based methodologies. This study reviews and organizes these methodologies. Recently, deep learning-based imputation methods are developed and show excellent performance. However, it is associated to some computational problems that make it difficult to use in real-time system. Thus, the direction of future work is to develop low computational but high-performance imputation methods for application in the real field.

Water Temperature Prediction Study Using Feature Extraction and Reconstruction based on LSTM-Autoencoder

  • Gu-Deuk Song;Su-Hyun Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.13-20
    • /
    • 2023
  • 본 논문에서는 LSTM-Autoencoder 기반 특징추출과 재구성 데이터를 이용한 수온 예측 방법을 제안한다. 냉수대 현상이 발생한 동해 낙산 지역의 해수면 수온과 수온에 영향을 미치는 풍향, 풍속 등 다변량 시계열 데이터를 이용하고, LSTM-Autoencoder 모델을 이용하여, 원본 데이터의 차원 축소를 통해 추출된 특징 데이터를 원본 데이터의 다변수 데이터로 결합한 데이터, 복원 데이터, 원본 데이터 총 3가지를 사용한다. 수온 예측을 위해 LSTM 모델에 3가지 데이터를 학습하고, 정확도를 평가한 결과 MAE 0.3652, RMSE 0.5604, MAPE 3.309%으로 LSTM-Autoencoder의 특징추출을 이용한 수온 예측 정확도가 가장 우수한 성능을 보이는 것을 확인하였다. 본 연구의 결과는 냉수대와 같이 해수면 수온 변화가 급변하는 구간의 예측 정확도를 높여, 자연재해의 피해를 예방할 수 있을 것으로 기대한다.

한국과 일본을 중심으로 한 실질금리페리티의 균형조건 검증 (Tests for the Real Interest Rates Parity between Korea and Japan)

  • 정석영
    • 재무관리연구
    • /
    • 제17권2호
    • /
    • pp.257-276
    • /
    • 2000
  • 본 연구는 실질금리페리티(RIP, Real Interest Rates Parity)가 존재하기 위한 4가지의 균형조건을 설명하였으며 이 조건들을 한국과 일본의 시계열에 적용하였다. 4가지의 균형조건은 4개의 공적분백터를 의미하며 요한센의 다변량 공적분 방법을 이용하여 추정한 결과 2개의 공적분백터가 존재하였다. 따라서 한 일간의 RIP균형조건은 기각되었으며, 기대구매력평가설(EAPPP)과 노출된 이자율평가설(UIP)이 한국과 일본간에 성립하지 않는 것으로 나타났다.

  • PDF

함수형 ARCH 분석 및 다변량 변동성을 통한 일중 로그 수익률 시간 간격 선택 (Functional ARCH analysis for a choice of time interval in intraday return via multivariate volatility)

  • 김다희;윤재은;황선영
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.297-308
    • /
    • 2020
  • 본 논문에서는 고빈도 함수적 ARCH 모형을 소개하고 근사모형으로써 다변량 변동성 모형을 고려하였다. 이를 기반으로 함수형 변동성 분석에서 중요한 요소인 일중 로그 수익률의 적절한 시간 간격을 찾아보았다. 또한 함수적 ARCH 모형에서 l-시차 후 변동성 예측식을 제시하고 고빈도 KOSPI 자료에 적합하여 예시하였다.

다변량 Bernoulli 모형을 이용한 녹조 발생 예측 모형 개발 (Development of an algal bloom prediction model using multivariate Bernoulli model)

  • 정민규;김진영;조혜미;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.83-83
    • /
    • 2021
  • 수리구조물로 인한 유황변화와 함께 기후변화로 기인하는 강우변동성 및 온도 증가는 수생태 전반에 악영향을 미치는 주요 인자로 작용하고 있다. 특히, 최근 가뭄으로 인한 유황감소 및 폭염 등으로 여름철 녹조의 발생 빈도 및 강도 증가가 지속적으로 증가하고 있다. 본 연구에서는 하천에서 계측되고 있는 Cyanobacteria 개체수를 기반으로 녹조발생 여부를 전망할 수 있는 모형을 개발하고자 한다. Cyanobacteria 개체수를 기준으로 녹조발생 여부를 판단할 수 있도록 기준값(threshold)을 설정하고 binary 형태로 시계열을 구성하였다. 이를 Bernoulli 모형에 적합하여 녹조 발생 여부를 판단할 수 있도록 모형을 개발하였다. 하천을 따라 나타나는 녹조는 시공간적으로 유사한 특성을 가지며, 이러한 점을 고려하여 여러 관측지점을 동시에 모델링하는 것이 모형의 효율성과 예측성 측면에서 유리하다. 본 연구에서는 낙동강을 따라 여러 녹조관측지점을 대상으로 동시에 모델링이 가능하도록 다변량 Bernoulli 모형 기반의 녹조 예측 모형을 제시하고 과거 자료를 대상으로 모형의 적합성을 평가하였다. 다양한 지표를 기준으로 교차검증을 수행하였으며, 기존 물리적 모델에 비해 모형의 예측성능 및 효율성 측면에서 우수성을 확인할 수 있었다.

  • PDF

기상변수를 활용한 일사량 예측 연구 (A study on solar irradiance forecasting with weather variables)

  • 김삼용
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.1005-1013
    • /
    • 2017
  • 본 연구에서는 태양광 발전량 예측에 필요한 일사량을 예측하기 위해 다양한 기상변수를 활용한 다중회귀, ARIMA, ARIMAX 모형을 사용하여 각 모형의 예측 성능을 비교하고자 한다. 예측에 사용된 변수와 시계열 모형에 대해 소개하고, 실제 일사량 예측에 적용하여 일사량을 예측한 결과 운량, 기온, 습도, 대기권 밖 일사량을 활용한 ARIMAX 모형의 성능이 가장 우수하였다.

결시적 자료에서 관측 중단을 모형화하기 위해 사용되는 경쟁 위험의 적용과 결합 모형 (Joint model of longitudinal data with informative observation time and competing risk)

  • 김양진
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.113-122
    • /
    • 2016
  • 경시적 자료는 반복적으로 측정된 다변량 자료의 한 형태로 임상학, 보건학, 경제학에서 자주 발생된다. 시계열자료와 구분되는 가장 큰 특징은 표본수와 공변량 효과의 추정에 있다. 경시적 자료는 일반적으로 시계열 자료보다 더 큰 표본 개체로 이루어져 있으며 연구의 주 관심은 특정 공변량의 효과를 추정하는 데 있다. 또한 시계열 자료보다 반복 측정 횟수가 짧으며 개체마다 다른 관측 횟수와 다른 관측 중단 시점을 가질 수 있다. 본 연구에서는 관측 시점과 관측 종료 원인이 경시자료와 서로 연관된 경우에 결합 모형을 적용함으로써 이들간의 연관성을 분석하고자한다. 따라서 이들 변량간의 연관성을 모형화하기 위해 이변량 랜덤효과가 적용된다. 실제 자료 분석에서는 간경변증 환자의 핼액 응고 수치 시간을 관심 있는 경시적 자료로 환자가 병원 방문시점과 관측 중단원인들간의 상호 연관관계를 규명하고자 하였다. 특히, 중도 절단원인은 사망이나 간이식을 받는 사건일 때 발생하는데 본 연구에서는 사망 사건과의 연관성이 고려되었다. 결과를 통해 혈액 응고 시간이 길고 병원 방문 시점이 빈번할수록 사망할 가능성이 높음을 알수 있었다. 또한 혈액응고 시간이 길수록 병원 방문 횟수가 빈번하였다.

사후검증(Back-testing)을 통한 다변량-GARCH 모형의 평가: 사례분석 (Assessments for MGARCH Models Using Back-Testing: Case Study)

  • 황선영;최문선;도종두
    • 응용통계연구
    • /
    • 제22권2호
    • /
    • pp.261-270
    • /
    • 2009
  • 주식 수익률, 환율 등과 같은 금융 자료를 이해하는데 있어서 최근의 국제 금융위기를 통해 더욱 중요해진 이슈는 바로 변동성(volatility)이다. 변동성(조건부 이분산성)에 대한 모형은 Engle (1982)의 ARCH 모형과 Bollerslev (1986)의 GARCH 모형을 시작으로 수만은 연구가 이루어졌으며 특히 금융 시계열 분석에서는 시계열 자료들 간의 변동성을 함께 모형화 하는 MGARCH(multivariate GARCH) 모형이 널리 이용되고 있다. 추정된 MGARCH 모형들은 그 자체로서 여러 개의 변동성들 간의 시간에 따른 동적인 관계를 설명해주는 데 유용할 뿐만 아니라 추정된 (조건부)상관계수들은 hedge ratio 계산 또는 VaR 계산 등과 같이 금융시장에 대한분석에도 이용되고 있다. 본 논문에서는 국내 14개 최신 주가자료에 대한 MGARCH 분석을 수행하고 연관된 사후검증(back-testing)을 통해 MGARCH 모형들을 평가하고 있으며 사후검증 수치를 얻기 위한 S-PLUS 프로그램을 수록하였다.