• 제목/요약/키워드: Data sparsity

검색결과 174건 처리시간 0.022초

Data Sparsity and Performance in Collaborative Filtering-based Recommendation

  • Kim Jong-Woo;Lee Hong-Joo
    • Management Science and Financial Engineering
    • /
    • 제11권3호
    • /
    • pp.19-45
    • /
    • 2005
  • Collaborative filtering is one of the most common methods that e-commerce sites and Internet information services use to personalize recommendations. Collaborative filtering has the advantage of being able to use even sparse evaluation data to predict preference scores for new products. To date, however, no in-depth investigation has been conducted on how the data sparsity effect in customers' evaluation data affects collaborative filtering-based recommendation performance. In this study, we analyzed the sparsity effect and used a hybrid method based on customers' evaluations and purchases collected from an online bookstore. Results indicated that recommendation performance decreased monotonically as sparsity increased, and that performance was more sensitive to sparsity in evaluation data rather than in purchase data. Results also indicated that the hybrid use of two different types of data (customers' evaluations and purchases) helped to improve the recommendation performance when evaluation data were highly sparse.

협업 필터링 기반 개인화 추천에서의 평가자료의 희소 정도의 영향 (Sparsity Effect on Collaborative Filtering-based Personalized Recommendation)

  • 김종우;배세진;이홍주
    • Asia pacific journal of information systems
    • /
    • 제14권2호
    • /
    • pp.131-149
    • /
    • 2004
  • Collaborative filtering is one of popular techniques for personalized recommendation in e-commerce sites. An advantage of collaborative filtering is that the technique can work with sparse evaluation data to predict preference scores of new alternative contents or advertisements. There is, however, no in-depth study about the sparsity effect of customer's evaluation data to the performance of recommendation. In this study, we investigate the sparsity effect and hybrid usages of customers' evaluation data and purchase data using an experiment result. The result of the analysis shows that the performance of recommendation decreases monotonically as the sparsity increases, and also the hybrid usage of two different types of data; customers' evaluation data and purchase data helps to increase the performance of recommendation in sparsity situation.

추천시스템의 희소성이 예측 정확도에 미치는 영향에 관한 연구 (The Effect of Data Sparsity on Prediction Accuracy in Recommender System)

  • 김선옥;이석준
    • 인터넷정보학회논문지
    • /
    • 제8권6호
    • /
    • pp.95-102
    • /
    • 2007
  • 협력적 필터링을 이용한 추천시스템은 희소성의 문제로 인해 예측의 정확도에 대한 신뢰성에 문제가 있다. 이는 선호도 평가치의 희소성이 크면 이웃선정과정에 문제가 있을 뿐만 아니라 예측의 정확도를 떨어뜨린다. 본 논문에서는 사용자의 응답 희소성에 따른 MAE의 변화를 조사하였으며 희소성에 따라 집단을 분류하고 분류된 집단에 따른 MAE는 유의적인 차이가 있는 지를 분석하였다. 그리고 희소성 문제로 인한 집단 간의 예측 정확도를 높이기 위한 방법으로 희소성이 있는 아이템을 선별하여 이들 중에서 선호도 응답이 많은 사용자 고객의 선호도 평균값을 선호도 평가 치로 대치시켜 희소성을 완화하여 추천시스템의 예측 정확도가 높아졌음을 연구하였다.

  • PDF

Multiview-based Spectral Weighted and Low-Rank for Row-sparsity Hyperspectral Unmixing

  • Zhang, Shuaiyang;Hua, Wenshen;Liu, Jie;Li, Gang;Wang, Qianghui
    • Current Optics and Photonics
    • /
    • 제5권4호
    • /
    • pp.431-443
    • /
    • 2021
  • Sparse unmixing has been proven to be an effective method for hyperspectral unmixing. Hyperspectral images contain rich spectral and spatial information. The means to make full use of spectral information, spatial information, and enhanced sparsity constraints are the main research directions to improve the accuracy of sparse unmixing. However, many algorithms only focus on one or two of these factors, because it is difficult to construct an unmixing model that considers all three factors. To address this issue, a novel algorithm called multiview-based spectral weighted and low-rank row-sparsity unmixing is proposed. A multiview data set is generated through spectral partitioning, and then spectral weighting is imposed on it to exploit the abundant spectral information. The row-sparsity approach, which controls the sparsity by the l2,0 norm, outperforms the single-sparsity approach in many scenarios. Many algorithms use convex relaxation methods to solve the l2,0 norm to avoid the NP-hard problem, but this will reduce sparsity and unmixing accuracy. In this paper, a row-hard-threshold function is introduced to solve the l2,0 norm directly, which guarantees the sparsity of the results. The high spatial correlation of hyperspectral images is associated with low column rank; therefore, the low-rank constraint is adopted to utilize spatial information. Experiments with simulated and real data prove that the proposed algorithm can obtain better unmixing results.

Adaptive Adjustment of Compressed Measurements for Wideband Spectrum Sensing

  • Gao, Yulong;Zhang, Wei;Ma, Yongkui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권1호
    • /
    • pp.58-78
    • /
    • 2016
  • Compressed sensing (CS) possesses the potential benefits for spectrum sensing of wideband signal in cognitive radio. The sparsity of signal in frequency domain denotes the number of occupied channels for spectrum sensing. This paper presents a scheme of adaptively adjusting the number of compressed measurements to reduce the unnecessary computational complexity when priori information about the sparsity of signal cannot be acquired. Firstly, a method of sparsity estimation is introduced because the sparsity of signal is not available in some cognitive radio environments, and the relationship between the amount of used data and estimation accuracy is discussed. Then the SNR of the compressed signal is derived in the closed form. Based on the SNR of the compressed signal and estimated sparsity, an adaptive algorithm of adjusting the number of compressed measurements is proposed. Finally, some simulations are performed, and the results illustrate that the simulations agree with theoretical analysis, which prove the effectiveness of the proposed adaptive adjusting of compressed measurements.

잠재적 속성 선호도를 이용한 협업 필터링의 데이터 희소성 문제 개선 방법 (Method to Improve Data Sparsity Problem of Collaborative Filtering Using Latent Attribute Preference)

  • 권형준;홍광석
    • 인터넷정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.59-67
    • /
    • 2013
  • 본 논문에서는 협업 필터링의 선호도 예측 정확성의 저하를 초래하는 전통적 문제점 중 하나인 데이터 희소성 문제에 강인한 잠재적 속성 선호도 기반 협업 필터링 방법(Latent Attribute Rating-based Collaborative Filtering, LAR_CF)을 제안한다. 기존의 협업 필터링은 객체의 유사성을 판단하기 위한 특징벡터로써 사용자가 명시적으로 평가한 선호도만을 이용하며, 해당 문제 개선을 위해 속성을 사용하는 연구들은 범용적으로 사용하기 어려웠다. 이웃 기반 필터링에 근본을 두는 LAR_CF는 기존의 명시적 선호도와 함께 유사도 평가의 대상이 되는 두 객체의 고유한 속성을 특징벡터로 삼기 때문에 명시적 선호도의 수가 적어서 발생하는 데이터 희소성 문제를 개선하여 선호도 예측 정확도를 향상시키며, 속성의 종류에 구애받지 않고 손쉽게 적용할 수 있는 장점을 가진다. LAR_CF의 유효성 평가를 위해서 MovieLens 100k 데이터세트 및 해당 데이터세트에 사용된 속성정보를 활용하여 일반적 성능 실험과 인공적 데이터 희소성 실험에서 선호도 예측 정확도를 평가한 결과, 제안하는 방법이 데이터 희소 조건에서 선호도 예측 정확도를 향상시킬 수 있음을 확인하였다.

퍼지 AHP와 퍼지 연관규칙을 이용하여 고차원 데이터를 처리하는 영화 추천 시스템 (A Movie Recommendation System processing High-Dimensional Data with Fuzzy-AHP and Fuzzy Association Rules)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.347-353
    • /
    • 2019
  • 최근 추천 시스템들은 고차원 데이터를 사용할 수 있는 시스템으로 발전하고 있다. 그러나 고차원 데이터는 차원을 확장시켜 알고리즘 복잡도가 증가하여 추천 항목의 정확도를 저하시킬 수 있다. 또한 데이터의 희소성(Sparsity) 문제가 발생할 수 있어 사용자들에게 적합한 추천 항목을 제공하는 것이 어렵다. 본 연구에서는 Fuzzy-AHP를 이용하여 사용자들의 주관적 기준의 데이터를 객관적 기준으로 분류한 후, 퍼지 연관규칙 분석을 이용하여 반복적 패턴을 띄는 규칙들을 활용하는 알고리즘을 제안하였다. 본 연구에서 적용된 알고리즘이 고차원 데이터의 문제점들을 어떻게 완화하는지 확인하기 위해 사용자 수의 변화에 따른 5-fold Cross Validation을 진행하였다. 그 결과 본 알고리즘이 적용된 시스템의 정확도는 Fuzzy-AHP만을 적용한 시스템보다 12.5% 정도 정확도가 우수하였고, 데이터의 희소성 문제도 완화할 수 있다는 것을 확인하였다.

EMPIRICAL BAYES THRESHOLDING: ADAPTING TO SPARSITY WHEN IT ADVANTAGEOUS TO DO SO

  • Silverman Bernard W.
    • Journal of the Korean Statistical Society
    • /
    • 제36권1호
    • /
    • pp.1-29
    • /
    • 2007
  • Suppose one is trying to estimate a high dimensional vector of parameters from a series of one observation per parameter. Often, it is possible to take advantage of sparsity in the parameters by thresholding the data in an appropriate way. A marginal maximum likelihood approach, within a suitable Bayesian structure, has excellent properties. For very sparse signals, the procedure chooses a large threshold and takes advantage of the sparsity, while for signals where there are many non-zero values, the method does not perform excessive smoothing. The scope of the method is reviewed and demonstrated, and various theoretical, practical and computational issues are discussed, in particularly exploring the wide potential and applicability of the general approach, and the way it can be used within more complex thresholding problems such as curve estimation using wavelets.

Power Failure Sensitivity Analysis via Grouped L1/2 Sparsity Constrained Logistic Regression

  • Li, Baoshu;Zhou, Xin;Dong, Ping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권8호
    • /
    • pp.3086-3101
    • /
    • 2021
  • To supply precise marketing and differentiated service for the electric power service department, it is very important to predict the customers with high sensitivity of electric power failure. To solve this problem, we propose a novel grouped 𝑙1/2 sparsity constrained logistic regression method for sensitivity assessment of electric power failure. Different from the 𝑙1 norm and k-support norm, the proposed grouped 𝑙1/2 sparsity constrained logistic regression method simultaneously imposes the inter-class information and tighter approximation to the nonconvex 𝑙0 sparsity to exploit multiple correlated attributions for prediction. Firstly, the attributes or factors for predicting the customer sensitivity of power failure are selected from customer sheets, such as customer information, electric consuming information, electrical bill, 95598 work sheet, power failure events, etc. Secondly, all these samples with attributes are clustered into several categories, and samples in the same category are assumed to be sharing similar properties. Then, 𝑙1/2 norm constrained logistic regression model is built to predict the customer's sensitivity of power failure. Alternating direction of multipliers (ADMM) algorithm is finally employed to solve the problem by splitting it into several sub-problems effectively. Experimental results on power electrical dataset with about one million customer data from a province validate that the proposed method has a good prediction accuracy.

공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘 (Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification)

  • 홍성삼;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.1-10
    • /
    • 2019
  • 빅 데이터에서 텍스트 마이닝은 많은 수의 데이터로부터 많은 특징 추출하기 때문에, 클러스터링 및 분류 과정의 계산 복잡도가 높고 분석결과의 신뢰성이 낮아질 수 있다. 특히 텍스트마이닝 과정을 통해 얻는 Term document matrix는 term과 문서간의 특징들을 표현하고 있지만, 희소행렬 형태를 보이게 된다. 본 논문에서는 탐지모델을 위해 텍스트마이닝에서 개선된 GA(Genetic Algorithm)을 이용한 특징 추출 방법을 설계하였다. TF-IDF는 특징 추출에서 문서와 용어간의 관계를 반영하는데 사용된다. 반복과정을 통해 사전에 미리 결정된 만큼의 특징을 선택한다. 또한 탐지모델의 성능 향상을 위해 sparsity score(희소성 점수)를 사용하였다. 스팸메일 세트의 희소성이 높으면 탐지모델의 성능이 낮아져 최적화된 탐지 모델을 찾기가 어렵다. 우리는 fitness function에서 s(F)를 사용하여 희소성이 낮고 TF-IDF 점수가 높은 탐지모델을 찾았다. 또한 제안된 알고리즘을 텍스트 분류 실험에 적용하여 성능을 검증하였다. 결과적으로, 제안한 알고리즘은 공격 메일 분류에서 좋은 성능(속도와 정확도)을 보여주었다.