• 제목/요약/키워드: multivariate data

검색결과 1,977건 처리시간 0.03초

금융시계열 분석을 위한 다변량-GARCH 모형에서 비대칭-CCC의 도입 및 응용 (Asymmetric CCC Modelling in Multivariate-GARCH with Illustrations of Multivariate Financial Data)

  • 박란희;최문선;황선
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.821-831
    • /
    • 2011
  • 다변량-GARCH 분야에서 비대칭모형에 대한 연구는 상대적으로 미진하다 (McAleer 등, 2009). 본 논문에서는 다변량-GARCH 시계열에서 비대칭 모형과 상수 조건부 상관모형(CCC)을 도입하여 모델링하는 방법론에 대해 연구하고 있다. 다변량 비대칭 변동성 모형 적합 방법을 실용적으로 소개하고 있으며 이를 이용하여 국내 다변량 시계열 분석을 상세히 예시하였다.

주성분을 이용한 다변량 고빈도 실현 변동성의 주기 선택 (Choice of frequency via principal component in high-frequency multivariate volatility models)

  • 진민경;윤재은;황선영
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.747-757
    • /
    • 2017
  • 본 논문은 다변량 실현 변동성 계산에서 주기 선택 방안에 대해 연구하고 있다. 고빈도(high frequency) 시계열 자료에 기초한 일간 변동성인 실현변동성을 계산하고 차원 축소 방법인 주성분을 도입하였다. Cholesky 모형을 포함한 다양한 다변량 변동성모형을 주성분을 통해 비교하였으며 KOSPI/삼성전자/현대차 고빈도 수익률 자료를 이용하여 예시하였다.

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

Copula 함수를 이용한 이변량분포의 VaR 추정 (VaR Estimation of Multivariate Distribution Using Copula Functions)

  • 홍종선;이재형
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.523-533
    • /
    • 2011
  • 위험관리수단으로 시장위험을 정확하게 측정하는 방법 중의 하나로 VaR를 선호한다. 현실생활에서는 단일분포가 아닌 두 개 이상의 다변량분포에 대한 VaR를 추정해야 하는 경우가 많다. 이런 경우에는 VaR를 추정하기 위해 다변량분포를 고려해야 한다. 본 연구는 확률변수들의 종속적 구조를 파악하고 비정규성의 특성을 갖는 다변량 분포함수를 생성하기 위하여 Copula 함수를 사용한다. 여러 산업의 수익률분포에 적합한 Clayton, Gumbel, Frank Copula 함수가 포함된 Archimedean Copula 함수를 추정하여 다변량 수익률 분포함수를 결정하고 이에 대응하는 VaR를 유도한다. 국내의 두 산업체의 자료를 실증예제로 하여 세 종류의 Copula 함수의 모수를 추정하고 이에 대응하는 이변량 분포로부터 VaR와 각각의 주변 분포의 VaR를 구한다. 실제의 VaR를 기준으로 기존 방법으로 구한 VaR와 비교 분석하여 추정의 정확성을 토론한다.

Water Temperature Prediction Study Using Feature Extraction and Reconstruction based on LSTM-Autoencoder

  • Gu-Deuk Song;Su-Hyun Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.13-20
    • /
    • 2023
  • 본 논문에서는 LSTM-Autoencoder 기반 특징추출과 재구성 데이터를 이용한 수온 예측 방법을 제안한다. 냉수대 현상이 발생한 동해 낙산 지역의 해수면 수온과 수온에 영향을 미치는 풍향, 풍속 등 다변량 시계열 데이터를 이용하고, LSTM-Autoencoder 모델을 이용하여, 원본 데이터의 차원 축소를 통해 추출된 특징 데이터를 원본 데이터의 다변수 데이터로 결합한 데이터, 복원 데이터, 원본 데이터 총 3가지를 사용한다. 수온 예측을 위해 LSTM 모델에 3가지 데이터를 학습하고, 정확도를 평가한 결과 MAE 0.3652, RMSE 0.5604, MAPE 3.309%으로 LSTM-Autoencoder의 특징추출을 이용한 수온 예측 정확도가 가장 우수한 성능을 보이는 것을 확인하였다. 본 연구의 결과는 냉수대와 같이 해수면 수온 변화가 급변하는 구간의 예측 정확도를 높여, 자연재해의 피해를 예방할 수 있을 것으로 기대한다.

다변량 통계분석을 이용한 낙동강 창녕함안보 구간의 수질 특성 평가 (The Evaluation of Water Quality Using a Multivariate Analysis in Changnyeong-Haman weir section)

  • 곽보라;김일규
    • 상하수도학회지
    • /
    • 제29권6호
    • /
    • pp.625-632
    • /
    • 2015
  • The study of water environment system using a multivariate analysis in Changnyeong-Haman weir section has been conducted. The purpose of this study is to establish better understanding related water qualities in the Changnyeong-Haman weir section which can provide useful information. The data were consisted of water quality data and algae data including WT(water temperature), pH, DO, EC, COD, SS, T-N, $NH_3-N$, T-P, $PO_4-P$, Chl-a, TOC, d-silica, t-silica, Cyanobacteria, Diatoms, and Green algae. Statistical analyses used in this study were correlation analysis, principal components, and factor analysis. According to correlation analysis on COD and TOC, it revealed that the each value of correlation coefficient was 0.843. On the other result, a negative correlation was observed between diatoms and d-silica. Furthermore, the results of principal component analysis to the overall water quality were classified into four main factors with contribution rate 81.071%.

Using SEER Data to Quantify Effects of Low Income Neighborhoods on Cause Specific Survival of Skin Melanoma

  • Cheung, Min Rex
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권5호
    • /
    • pp.3219-3221
    • /
    • 2013
  • Background: This study used receiver operating characteristic (ROC) curves to screen Surveillance, Epidemiology and End Results (SEER) skin melanoma data to identify and quantify the effects of socioeconomic factors on cause specific survival. Methods: 'SEER cause-specific death classification' used as the outcome variable. The area under the ROC curve was to select best pretreatment predictors for further multivariate analysis with socioeconomic factors. Race and other socioeconomic factors including rural-urban residence, county level % college graduate and county level family income were used as predictors. Univariate and multivariate analyses were performed to identify and quantify the independent socioeconomic predictors. Results: This study included 49,999 parients. The mean follow up time (SD) was 59.4 (17.1) months. SEER staging (ROC area of 0.08) was the most predictive foctor. Race, lower county family income, rural residence, and lower county education attainment were significant univariates, but rural residence was not significant under multivariate analysis. Living in poor neighborhoods was associated with a 2-4% disadvantage in actuarial cause specific survival. Conclusions: Racial and socioeconomic factors have a significant impact on the survival of melanoma patients. This generates the hypothesis that ensuring access to cancer care may eliminate these outcome disparities.

Artificial Neural Networks for Interest Rate Forecasting based on Structural Change : A Comparative Analysis of Data Mining Classifiers

  • Oh, Kyong-Joo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.641-651
    • /
    • 2003
  • This study suggests the hybrid models for interest rate forecasting using structural changes (or change points). The basic concept of this proposed model is to obtain significant intervals caused by change points, to identify them as the change-point groups, and to reflect them in interest rate forecasting. The model is composed of three phases. The first phase is to detect successive structural changes in the U. S. Treasury bill rate dataset. The second phase is to forecast the change-point groups with data mining classifiers. The final phase is to forecast interest rates with backpropagation neural networks (BPN). Based on this structure, we propose three hybrid models in terms of data mining classifier: (1) multivariate discriminant analysis (MDA)-supported model, (2) case-based reasoning (CBR)-supported model, and (3) BPN-supported model. Subsequently, we compare these models with a neural network model alone and, in addition, determine which of three classifiers (MDA, CBR and BPN) can perform better. For interest rate forecasting, this study then examines the prediction ability of hybrid models to reflect the structural change.

  • PDF

INVITED PAPER MULTIVARIATE ANALYSIS FOR THE CASE WHEN THE DIMENSION IS LARGE COMPARED TO THE SAMPLE SIZE

  • Fujikoshi, Yasunori
    • Journal of the Korean Statistical Society
    • /
    • 제33권1호
    • /
    • pp.1-24
    • /
    • 2004
  • This paper is concerned with statistical methods for multivariate data when the number p of variables is large compared to the sample size n. Such data appear typically in analysis of DNA microarrays, curve data, financial data, etc. However, there is little statistical theory for high dimensional data. On the other hand, there are some asymptotic results under the assumption that both and p tend to $\infty$, in some ratio p/n ${\rightarrow}$c. The results suggest that the new asymptotic results are more useful and insightful than the classical large sample asymptotics. The main purpose of this paper is to review some asymptotic results for high dimensional statistics as well as classical statistics under a high dimensional asymptotic framework.

식생이 무성한 지역에서의 Principal Component Analysis 에 의한 Landsat TM 자료의 광역지질도 작성 (Regional Geological Mapping by Principal Component Analysis of the Landsat TM Data in a Heavily Vegetated Area)

  • 朴鍾南;徐延熙
    • 대한원격탐사학회지
    • /
    • 제4권1호
    • /
    • pp.49-60
    • /
    • 1988
  • Principal Component Analysis (PCA) was applied for regional geological mapping to a multivariate data set of the Landsat TM data in the heavily vegetated and topographically rugged Chungju area. The multivariate data set selection was made by statistical analysis based on the magnitude of regression of squares in multiple regression, and it includes R1/2/R3/4, R2/3, R5/7/R4/3, R1/2, R3/4. R4/3. AND R4/5. As a result of application of PCA, some of later principal components (in this study PC 3 and PC 5) are geologically more significant than earlier major components, PC 1 and PC 2 herein. The earlier two major components which comprise 96% of the total information of the data set, mainly represent reflectance of vegetation and topographic effects, while though the rest represent 3% of the total information which statistically indicates the information unstable, geological significance of PC3 and PC5 in the study implies that application of the technique in more favorable areas should lead to much better results.