• 제목/요약/키워드: data dimensionality reduction

검색결과 131건 처리시간 0.027초

Asymptotic Test for Dimensionality in Probabilistic Principal Component Analysis with Missing Values

  • Park, Chong-sun
    • Communications for Statistical Applications and Methods
    • /
    • 제11권1호
    • /
    • pp.49-58
    • /
    • 2004
  • In this talk we proposed an asymptotic test for dimensionality in the latent variable model for probabilistic principal component analysis with missing values at random. Proposed algorithm is a sequential likelihood ratio test for an appropriate Normal latent variable model for the principal component analysis. Modified EM-algorithm is used to find MLE for the model parameters. Results from simulations and real data sets give us promising evidences that the proposed method is useful in finding necessary number of components in the principal component analysis with missing values at random.

On Combining Genetic Algorithm (GA) and Wavelet for High Dimensional Data Reduction

  • Liu, Zhengjun;Wang, Changyao;Zhang, Jixian;Yan, Qin
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.1272-1274
    • /
    • 2003
  • In this paper, we present a new algorithm for high dimensional data reduction based on wavelet decomposition and Genetic Algorithm (GA). Comparative results show the superiority of our algorithm for dimensionality reduction and accuracy improvement.

  • PDF

다중인자 차원 축소 방법에 의한 대사증후군의 위험도 분석과 오즈비 (The study on risk factors for diagnosis of metabolic syndrome and odds ratio using multifactor dimensionality reduction method)

  • 진미현;이제영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.867-876
    • /
    • 2013
  • 대사증후군은 심혈관질환의 발생을 증가시키는 주요 요인으로 알려져 왔다. 특히 만성적인 대사장애로 여러 질병이 한 개인에게서 복합되어 나타나는 대사증후군의 경우 우리나라에서도 유병률이 점차 증가하는 추세이다. 이에 본 연구는 다중인자 차원 축소 방법을 이용하여 대사증후군의 위험도를 확인하고 여러 대사증후군 진단 조합 중에서 가장 위험한 조합을 제시하는 데 목적을 둔다. 자료는 질병관리본부에서 실시한 제 5기 국민건강영양조사 1차년도 (2010년)자료를 이용하여 성인 중에서 분석방법에 적용이 가능한 3,990명을 대상자로 결정하였다. 다중인자 차원 축소 방법을 적용시킨 결과 대사증후군에 가장 위험한 단일 요인은 복부비만이었고, 복부비만을 포함한 대사증후군 진단 조합은 복부비만과 고지혈증, 고혈압이 가장 위험한 것으로 나타났다. 이것은 대사증후군의 새로운 진단 결과이다. 특히, 남성의 경우는 복부비만, 저 HDL-콜레스테롤혈증, 고혈압이 가장 위험한 조합으로 확인되었고 체질량 지수가 $25kg/m^2$이상인 사람에게서는 복부비만, 고지혈증, 고혈당의 조합이 가장 위험한 대사증후군 조합이었다.

Classification of Imbalanced Data Based on MTS-CBPSO Method: A Case Study of Financial Distress Prediction

  • Gu, Yuping;Cheng, Longsheng;Chang, Zhipeng
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.682-693
    • /
    • 2019
  • The traditional classification methods mostly assume that the data for class distribution is balanced, while imbalanced data is widely found in the real world. So it is important to solve the problem of classification with imbalanced data. In Mahalanobis-Taguchi system (MTS) algorithm, data classification model is constructed with the reference space and measurement reference scale which is come from a single normal group, and thus it is suitable to handle the imbalanced data problem. In this paper, an improved method of MTS-CBPSO is constructed by introducing the chaotic mapping and binary particle swarm optimization algorithm instead of orthogonal array and signal-to-noise ratio (SNR) to select the valid variables, in which G-means, F-measure, dimensionality reduction are regarded as the classification optimization target. This proposed method is also applied to the financial distress prediction of Chinese listed companies. Compared with the traditional MTS and the common classification methods such as SVM, C4.5, k-NN, it is showed that the MTS-CBPSO method has better result of prediction accuracy and dimensionality reduction.

서포트 벡터 머신 알고리즘을 활용한 연속형 데이터의 다중인자 차원축소방법 적용 (Support vector machine and multifactor dimensionality reduction for detecting major gene interactions of continuous data)

  • 이제영;이종형
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1271-1280
    • /
    • 2010
  • 인간의 질병과 가축의 특성에 영향을 주는 유전자들의 상호작용을 규명하는 방법으로 전통적인 통계방법들이 사용되었지만, 유전자와 같은 고차원의 데이터에는 적합하지 않았다. 따라서 다중인자 차원축소방법이 제안되었다. 다중인자 차원축소방법은 모형에 대한 가정이 필요하지 않는 비모수적 방법으로 이분형 자료에 적용 가능 하지만, 연속형 데이터에는 적용할 수 없는 단점이 있다. 따라서 본 연구에서는 일반화 분류 성능이 뛰어난 서포트 벡터 머신 알고리즘을 통해 연속형 자료를 가공하여 다중인자 차원축소방법에 적용하였다. 아울러 한우의 6번 염색체내 6개의 후보 단일염기다형성을 대상으로 연속형 자료인 실제 한우의 경제형질에 서포트 벡터 머신을 이용한 다중인자 차원축소방법을 적용함으로써 한우의 경제형질에 연관된 우수 유전자 상호작용의 조합을 규명하였다.

환경적인 요인을 보정한 한우의 우수 유전자 조합 선별 (Major gene interaction identification in Hanwoo by adjusted environmental effects)

  • 이제영;진미현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권3호
    • /
    • pp.467-474
    • /
    • 2012
  • 인간의 질병과 가축의 경제적인 특성은 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 더 많이 받는다고 알려져 있다. 본 논문에서는 유전적인 효과만을 밝혀내기 위해 선형회귀모형을 활용하여 환경적인 요인을 보정하고, 최근 한우의 맛과 육질에 영향을 준다고 밝혀진 단일염기다형성 5개 (Oh 등, 2011)를 이용해 한우의 경제형질에 영향을 주는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이때, 많은 유전자들 중에서 우수한 유전자를 찾기 위한 비모수적인 방법인 다중인자 차원 축소 방법을 이용하여 단일 유전자의 효과보다 상호작용의 효과가 한우의 경제형질에 더 많은 영향을 준다는 사실을 확인하였다.

더미 다중인자 차원축소법에 의한 검증력과 주요 유전자 규명 (Power and major gene-gene identification of dummy multifactor dimensionality reduction algorithm)

  • 여정수;라부미;이호근;이성원;이제영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.277-287
    • /
    • 2013
  • 광범위 유전자 관련 연구에서는 유전자-유전자 상호작용을 규명하는 것은 매우 중요하다. 최근 유전자-유전자 상호작용을 규명하는데에 대한 많은 연구가 진행되고 있다. 그 중 하나로 더미 다중인자 차원축소법이다. 이 연구의 목적은 모의실험을 통해 유전자-유전자 상호작용 파악하기 위한 더미 다중인자 차원축소의 검증력을 평가하는 것이다. 또한 이 방법을 적용하여 한우모집단에서 경제형질을 위한 단일 염기 다형성의 상호작용 효과를 확인하였다.

자료별 분류분석(DDA)에 의한 특징추출 (Datawise Discriminant Analysis For Feature Extraction)

  • 박명수;최진영
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.90-95
    • /
    • 2009
  • 본 논문은 선형차원감소(Linear Dimensionality Reduction)을 위해 널리 이용되고 있는 특징추출 알고리듬인 선형판별분석(Linear Discriminant Analysis)의 문제점을 해결할 수 있는 새로운 특징추출 알고리듬을 제안한다. 선형판별분석에 포함되는 평균-자료 간 거리 및 평균-평균 간의 거리에 기반한 분산행렬은 역행렬 연산, 계수의 제한 등으로 인하여 계산상의 문제와 추출되는 특징의 수가 제한되는 한계를 가지고 있다. 또한 자료의 집단이 단일 모드의 정규 분포로부터 얻어진 것으로 가정되며 그렇지 않은 경우에 대해서는 적절한 결과를 얻을 수 없다. 본 논문에서는 자료-자료 간의 거리에 기반하고 적절하게 가중치가 추가된 새로운 행렬을 정의하였으며. 이에 기반하여 특징을 추출하는 방법을 제안하였다. 그럼으로써 앞서 선형판별분석의 여러 문제를 해결하고자 시도하였다. 제안된 방법의 성능을 실험을 통해 확인하였다.

Machine Learning-based Classification of Hyperspectral Imagery

  • Haq, Mohd Anul;Rehman, Ziaur;Ahmed, Ahsan;Khan, Mohd Abdul Rahim
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.193-202
    • /
    • 2022
  • The classification of hyperspectral imagery (HSI) is essential in the surface of earth observation. Due to the continuous large number of bands, HSI data provide rich information about the object of study; however, it suffers from the curse of dimensionality. Dimensionality reduction is an essential aspect of Machine learning classification. The algorithms based on feature extraction can overcome the data dimensionality issue, thereby allowing the classifiers to utilize comprehensive models to reduce computational costs. This paper assesses and compares two HSI classification techniques. The first is based on the Joint Spatial-Spectral Stacked Autoencoder (JSSSA) method, the second is based on a shallow Artificial Neural Network (SNN), and the third is used the SVM model. The performance of the JSSSA technique is better than the SNN classification technique based on the overall accuracy and Kappa coefficient values. We observed that the JSSSA based method surpasses the SNN technique with an overall accuracy of 96.13% and Kappa coefficient value of 0.95. SNN also achieved a good accuracy of 92.40% and a Kappa coefficient value of 0.90, and SVM achieved an accuracy of 82.87%. The current study suggests that both JSSSA and SNN based techniques prove to be efficient methods for hyperspectral classification of snow features. This work classified the labeled/ground-truth datasets of snow in multiple classes. The labeled/ground-truth data can be valuable for applying deep neural networks such as CNN, hybrid CNN, RNN for glaciology, and snow-related hazard applications.

합성곱 오토인코더 기반의 응집형 계층적 군집 분석 (Agglomerative Hierarchical Clustering Analysis with Deep Convolutional Autoencoders)

  • 박노진;고한석
    • 한국멀티미디어학회논문지
    • /
    • 제23권1호
    • /
    • pp.1-7
    • /
    • 2020
  • Clustering methods essentially take a two-step approach; extracting feature vectors for dimensionality reduction and then employing clustering algorithm on the extracted feature vectors. However, for clustering images, the traditional clustering methods such as stacked auto-encoder based k-means are not effective since they tend to ignore the local information. In this paper, we propose a method first to effectively reduce data dimensionality using convolutional auto-encoder to capture and reflect the local information and then to accurately cluster similar data samples by using a hierarchical clustering approach. The experimental results confirm that the clustering results are improved by using the proposed model in terms of clustering accuracy and normalized mutual information.