• 제목/요약/키워드: Data sparsity

검색결과 174건 처리시간 0.025초

Comparison of Lasso Type Estimators for High-Dimensional Data

  • Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제21권4호
    • /
    • pp.349-361
    • /
    • 2014
  • This paper compares of lasso type estimators in various high-dimensional data situations with sparse parameters. Lasso, adaptive lasso, fused lasso and elastic net as lasso type estimators and ridge estimator are compared via simulation in linear models with correlated and uncorrelated covariates and binary regression models with correlated covariates and discrete covariates. Each method is shown to have advantages with different penalty conditions according to sparsity patterns of regression parameters. We applied the lasso type methods to Arabidopsis microarray gene expression data to find the strongly significant genes to distinguish two groups.

다차원 대용량 저밀도 데이타 큐브에 대한 고밀도 서브 큐브 추출 알고리즘 (Dense Sub-Cube Extraction Algorithm for a Multidimensional Large Sparse Data Cube)

  • 이석룡;전석주;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.353-362
    • /
    • 2006
  • 데이타 웨어하우스는 기업이나 사회 전반에서 사용되는 방대한 데이타를 저장하고, 효율적인 분석을 가능하게 하는 데이타 저장소로써, 점점 그 활용도가 증가하고 있다. 본 연구에서는 이러한 데이타 웨어하우스 구축 기술의 핵심이 되는 다차원 데이타 큐브 (multidimensional data cube) 기술을 연구하는 데 목적이 있다. 고차원 데이타 큐브에는 필연적으로 내재하는 데이타의 희소성 (sparsity)에 의한 검색 오버헤드가 있다. 본 연구에서는 이러한 오버헤드를 현격하게 감소시키는 알고리즘을 제시함으로써, 데이타 웨어하우스의 효율을 높이는 데 기여한다. 즉, 고차원의 희소 데이타 큐브에서 데이타가 조밀하게 밀집된 영역들을 찾아 그 영역을 중심으로 서브 큐브를 구축하여, 데이타 검색 시에 전체의 데이타 큐브를 대상으로 하지 않고 해당 서브 큐브만으로 검색 대상을 제한시킴으로써 검색 효율을 높이는 알고리즘이다. 본 논문에서는 다 차원 대용량의 희소 데이타 큐브로부터 밀도가 높은 서브 큐브를 찾기 위하여 비트맵과 히스토그램에 기반한 알고리즘을 제안하며, 실험을 통하여 제안한 알고리즘의 효용성을 보여준다.

암시적 피드백 데이터의 행렬 분해 기반 누락 데이터 모델링 (Missing Data Modeling based on Matrix Factorization of Implicit Feedback Dataset)

  • 기가기;정영지
    • 한국정보통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.495-507
    • /
    • 2019
  • 데이터 희소성은 추천 시스템의 주요 과제 중 하나이다. 추천 시스템에서는, 일부분만 관찰된 데이터이고 다른 부분은 데이터가 누락된 대용량 데이터를 포함하고 있다. 대부분의 연구에서는, 데이터 세트에서 무작위로 데이터가 누락되었다고 가정하고, 관찰된 데이터만을 사용하여 추천 모델을 학습함으로써 사용자에게 항목을 추천하고 있다. 그러나, 실제로는 누락된 데이터는 무작위로 손실되었다고 볼 수 없다. 본 연구에서는, 누락 된 데이터를 사용자적 관심의 부정적인 예라고 간주하였다. 또한, 3가지 샘플 접근 방식을 SVD++ 알고리즘과 결합하여 SVD++_W, SVD++_R 그리고 SVD++_KNN 알고리즘을 제안하였다. 실험결과를 통하여, 제안한 3가지 샘플 접근 방식이 기존의 기본적인 알고리즘 보다 Top-N 추천에서 정확성과 회수율을 효과적으로 향상시킬 수 있다는 것을 보였다. 특히, SVD++_KNN 가 가장 우수한 성능을 보였는데, 이는 KNN 샘플 접근 방식이 사용자적 관심의 부정적인 예를 추출하는데 가장 효율적인 방법이라는 것을 보여주었다.

MP-Lasso chart: a multi-level polar chart for visualizing group Lasso analysis of genomic data

  • Min Song;Minhyuk Lee;Taesung Park;Mira Park
    • Genomics & Informatics
    • /
    • 제20권4호
    • /
    • pp.48.1-48.7
    • /
    • 2022
  • Penalized regression has been widely used in genome-wide association studies for joint analyses to find genetic associations. Among penalized regression models, the least absolute shrinkage and selection operator (Lasso) method effectively removes some coefficients from the model by shrinking them to zero. To handle group structures, such as genes and pathways, several modified Lasso penalties have been proposed, including group Lasso and sparse group Lasso. Group Lasso ensures sparsity at the level of pre-defined groups, eliminating unimportant groups. Sparse group Lasso performs group selection as in group Lasso, but also performs individual selection as in Lasso. While these sparse methods are useful in high-dimensional genetic studies, interpreting the results with many groups and coefficients is not straightforward. Lasso's results are often expressed as trace plots of regression coefficients. However, few studies have explored the systematic visualization of group information. In this study, we propose a multi-level polar Lasso (MP-Lasso) chart, which can effectively represent the results from group Lasso and sparse group Lasso analyses. An R package to draw MP-Lasso charts was developed. Through a real-world genetic data application, we demonstrated that our MP-Lasso chart package effectively visualizes the results of Lasso, group Lasso, and sparse group Lasso.

장소 추천을 위한 방문 간격 보정 (Temporal Interval Refinement for Point-of-Interest Recommendation)

  • 김민석;이재길
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.86-98
    • /
    • 2018
  • 장소추천시스템은 시간과 장소가 주어졌을 때, 사용자에게 가장 흥미로운 장소를 추천해주는 시스템을 말한다. 스마트폰과 사물인터넷(IoT), 장소기반 소셜네트워크(LBSN)의 발달에 힘입어 사용자들의 방대한 양의 장소 방문 데이터를 축적하게 되었고, 이를 통해 특정한 시점에 사용자들이 원하는 장소를 적절히 추천해줄 수 있는 장소추천시스템의 중요성이 부각되었다. 장소추천시스템은 사용자의 방문(Check-in) 횟수라는 암시적 피드백(Implicit feedback) 데이터에서 사용자의 시퀀스 선호(Sequential preference)를 이끌어내어 높은 성능을 내기 위한 연구들이 제안되었다. 하지만 시퀀스 선호 정보를 활용하여 모델을 구성하는 경우, 데이터의 밀도가 더욱 희박해지고 이에 따라 적은 수의 데이터에 기반하여 구축되는 모델의 성능이 왜곡될 가능성이 존재한다. 본 연구에서는 신뢰도(Confidence)에 기반하여 방문 주기를 보정하는 방법론을 제안한다. 사용자의 시퀀스 선호 정보로부터 도출된 장소 간 방문 시간전이간격(temporal transition interval)을 활용하여 추천시스템을 구성할 때, 해당 방법론을 통하여 데이터의 왜곡을 보정함으로써 추천시스템의 성능을 향상하였다. 제안하는 방법의 효과를 검증하기 위하여, Foursquare와 Gowalla의 데이터셋을 이용한 비교실험을 통해 제안하는 방법론의 우수성을 보였다.

Image Denoising for Metal MRI Exploiting Sparsity and Low Rank Priors

  • Choi, Sangcheon;Park, Jun-Sik;Kim, Hahnsung;Park, Jaeseok
    • Investigative Magnetic Resonance Imaging
    • /
    • 제20권4호
    • /
    • pp.215-223
    • /
    • 2016
  • Purpose: The management of metal-induced field inhomogeneities is one of the major concerns of distortion-free magnetic resonance images near metallic implants. The recently proposed method called "Slice Encoding for Metal Artifact Correction (SEMAC)" is an effective spin echo pulse sequence of magnetic resonance imaging (MRI) near metallic implants. However, as SEMAC uses the noisy resolved data elements, SEMAC images can have a major problem for improving the signal-to-noise ratio (SNR) without compromising the correction of metal artifacts. To address that issue, this paper presents a novel reconstruction technique for providing an improvement of the SNR in SEMAC images without sacrificing the correction of metal artifacts. Materials and Methods: Low-rank approximation in each coil image is first performed to suppress the noise in the slice direction, because the signal is highly correlated between SEMAC-encoded slices. Secondly, SEMAC images are reconstructed by the best linear unbiased estimator (BLUE), also known as Gauss-Markov or weighted least squares. Noise levels and correlation in the receiver channels are considered for the sake of SNR optimization. To this end, since distorted excitation profiles are sparse, $l_1$ minimization performs well in recovering the sparse distorted excitation profiles and the sparse modeling of our approach offers excellent correction of metal-induced distortions. Results: Three images reconstructed using SEMAC, SEMAC with the conventional two-step noise reduction, and the proposed image denoising for metal MRI exploiting sparsity and low rank approximation algorithm were compared. The proposed algorithm outperformed two methods and produced 119% SNR better than SEMAC and 89% SNR better than SEMAC with the conventional two-step noise reduction. Conclusion: We successfully demonstrated that the proposed, novel algorithm for SEMAC, if compared with conventional de-noising methods, substantially improves SNR and reduces artifacts.

네트워크 침입 탐지를 위해 CICIDS2017 데이터셋으로 학습한 Stacked Sparse Autoencoder-DeepCNN 모델 (Stacked Sparse Autoencoder-DeepCNN Model Trained on CICIDS2017 Dataset for Network Intrusion Detection)

  • 이종화;김종욱;최미정
    • KNOM Review
    • /
    • 제24권2호
    • /
    • pp.24-34
    • /
    • 2021
  • 엣지 컴퓨팅을 사용하는 서비스 공급업체는 높은 수준의 서비스를 제공한다. 이에 따라 다양하고 중요한 정보들이 단말 장치에 저장되면서 탐지하기 더욱 어려운 최신 사이버 공격의 핵심 목표가 됐다. 보안을 위해 침입 탐지시스템과 같은 보안 시스템이 자주 활용되지만, 기존의 침입 탐지 시스템은 탐지 정확도가 낮은 문제점이 존재한다. 따라서 본 논문에서는 엣지 컴퓨팅에서 단말 장치의 더욱 정확한 침입 탐지를 위한 기계 학습 모델을 제안한다. 제안하는 모델은 희소성 제약을 사용하여 입력 데이터의 중요한 특징 벡터들을 추출하는 stacked sparse autoencoder (SSAE)와 convolutional neural network (CNN)를 결합한 하이브리드 모델이다. 최적의 모델을 찾기 위해 SSAE의 희소성 계수를 조절하면서 모델의 성능을 비교 및 분석했다. 그 결과 희소성 계수가 일 때 96.9%로 가장 높은 정확도를 보여주었다. 따라서 모델이 중요한 특징들만 학습할 경우 더 높은 성능을 얻을 수 있었다.

Sparse kernel classication using IRWLS procedure

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권4호
    • /
    • pp.749-755
    • /
    • 2009
  • Support vector classification (SVC) provides more complete description of the lin-ear and nonlinear relationships between input vectors and classifiers. In this paper. we propose the sparse kernel classifier to solve the optimization problem of classification with a modified hinge loss function and absolute loss function, which provides the efficient computation and the sparsity. We also introduce the generalized cross validation function to select the hyper-parameters which affects the classification performance of the proposed method. Experimental results are then presented which illustrate the performance of the proposed procedure for classification.

  • PDF

On the Fitting ANOVA Models to Unbalanced Data

  • Jong-Tae Park;Jae-Heon Lee;Byung-Chun Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제2권1호
    • /
    • pp.48-54
    • /
    • 1995
  • A direct method for fitting analysis-of-variance models to unbalanced data is presented. This method exploits sparsity and rank deficiency of the matrix and is based on Gram-Schmidt orthogonalization of a set of sparse columns of the model matrix. The computational algorithm of the sum of squares for testing estmable hyphotheses is given.

  • PDF

Shifted Nadaraya Watson Estimator

  • Chung, Sung-S.
    • Communications for Statistical Applications and Methods
    • /
    • 제4권3호
    • /
    • pp.881-890
    • /
    • 1997
  • The local linear estimator usually has more attractive properties than Nadaraya-Watson estimator. But the local linear estimator gives bad performance where data are sparse. Muller and Song proposed Shifted Nadaraya Watson estimator which has treated data sparsity well. We show that Shifted Nadaraya Watson estimator has good performance not only in the sparse region but also in the dense region, through the simulation study. Ans we suggest the boundary treatment of Shifted Nadaraya Watson estimator.

  • PDF