• 제목/요약/키워드: Sparsity

검색결과 329건 처리시간 0.026초

추천 시스템을 위한 단계적 평가치 예측 방안 (A Stepwise Rating Prediction Method for Recommender Systems)

  • 이수정
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권4호
    • /
    • pp.183-188
    • /
    • 2021
  • 협력 필터링 기반의 추천 시스템은 현재 다양한 분야의 상업용 시스템의 필수불가결한 기능으로서, 사용자들이 선호할만한 상품을 맞춤형으로 제공해 주는 유용한 서비스이다. 그러나, 사용자들의 평가 데이타가 불충분할 경우 선호상품의 예측이 부정확할 우려가 크다. 본 연구에서는 이러한 단점을 해결하기 위하여 단계적으로 상품의 평가치를 예측하는 방안을 제시한다. 각 단계에 해당하는 예측 방법의 적용 조건을 만족하지 못할 경우 다음 단계의 방법을 적용한다. 제안 방법의 성능 평가를 위해, 공개 데이터셋을 활용한 실험을 진행하였으며, 제안 방법은 여러 전통적 유사도 척도를 도입한 협력 필터링 시스템의 예측 성능과 정밀도 성능을 크게 향상시켰고, 평가데이터 희소성 해결을 위한 기존 방식들의 성능을 능가하는 결과를 보였다.

MP-Lasso chart: a multi-level polar chart for visualizing group Lasso analysis of genomic data

  • Min Song;Minhyuk Lee;Taesung Park;Mira Park
    • Genomics & Informatics
    • /
    • 제20권4호
    • /
    • pp.48.1-48.7
    • /
    • 2022
  • Penalized regression has been widely used in genome-wide association studies for joint analyses to find genetic associations. Among penalized regression models, the least absolute shrinkage and selection operator (Lasso) method effectively removes some coefficients from the model by shrinking them to zero. To handle group structures, such as genes and pathways, several modified Lasso penalties have been proposed, including group Lasso and sparse group Lasso. Group Lasso ensures sparsity at the level of pre-defined groups, eliminating unimportant groups. Sparse group Lasso performs group selection as in group Lasso, but also performs individual selection as in Lasso. While these sparse methods are useful in high-dimensional genetic studies, interpreting the results with many groups and coefficients is not straightforward. Lasso's results are often expressed as trace plots of regression coefficients. However, few studies have explored the systematic visualization of group information. In this study, we propose a multi-level polar Lasso (MP-Lasso) chart, which can effectively represent the results from group Lasso and sparse group Lasso analyses. An R package to draw MP-Lasso charts was developed. Through a real-world genetic data application, we demonstrated that our MP-Lasso chart package effectively visualizes the results of Lasso, group Lasso, and sparse group Lasso.

APMDI-CF: An Effective and Efficient Recommendation Algorithm for Online Users

  • Ya-Jun Leng;Zhi Wang;Dan Peng;Huan Zhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권11호
    • /
    • pp.3050-3063
    • /
    • 2023
  • Recommendation systems provide personalized products or services to online users by mining their past preferences. Collaborative filtering is a popular recommendation technique because it is easy to implement. However, with the rapid growth of the number of users in recommendation systems, collaborative filtering suffers from serious scalability and sparsity problems. To address these problems, a novel collaborative filtering recommendation algorithm is proposed. The proposed algorithm partitions the users using affinity propagation clustering, and searches for k nearest neighbors in the partition where active user belongs, which can reduce the range of searching and improve real-time performance. When predicting the ratings of active user's unrated items, mean deviation method is used to impute values for neighbors' missing ratings, thus the sparsity can be decreased and the recommendation quality can be ensured. Experiments based on two different datasets show that the proposed algorithm is excellent both in terms of real-time performance and recommendation quality.

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

내재적 신뢰가 강화된 협업필터링을 이용한 추천시스템 (Recommender System using Implicit Trust-enhanced Collaborative Filtering)

  • 김경재;김영태
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.1-10
    • /
    • 2013
  • 개인화는 개인적인 기호를 바탕으로 각 사용자에게 맞춤화된 컨텐츠를 제공하는 것을 목표로 한다. 이러한 관점에서, 개인화의 핵심적인 부분은 각 사용자의 기호에 적합한 컨텐츠나 상품을 추천할 수 있는 추천기술이라 할 수 있다. 선행연구들은 추천시스템의 중요성을 인지하고 새로운 추천기술을 제안하여 왔다. 여러 추천기술들 중에서 협업필터링은 실무에서 활발하게 연구되고 활용되어 왔다. 그러나, 협업필터링은 종종 희박성 또는 확장성 문제를 겪게 된다. 선행연구들 역시 이 두 가지 문제점의 중요성을 인지하고 그에 대한 여러 가지 해결방안들을 제안하였다. 하지만, 여러 선행연구들은 기존의 사용자-상품 매트릭스 외에 다른 원천들로부터 생성된 추가적인 정보를 이용함으로써 문제점들을 해결하려 함으로 인하여 추가적인 시간과 비용을 요하는 다른 문제를 야기하였다. 본 연구에서는 희박성 문제를 완화하고 추천시스템의 성능을 개선하기 위하여 협업필터링을 위한 새로운 내재적 평가방법을 제안한다. 즉, 본 연구에서는 기존 사용자-상품 매트릭스를 이용하여 사용자 간의 신뢰수준을 측정할 수 있는 내재적 평가법에 기반한 사용자-상품 매트릭스의 보완을 통해 희박성 문제를 완화할 수 있는 방안을 제안한다. 또한, 본 연구에서는 제안하는 방안의 유용성을 평가하기 위한 탐색적 실험 결과를 제공한다.

타임라인데이터를 이용한 트위터 사용자의 거주 지역 유추방법 (Location Inference of Twitter Users using Timeline Data)

  • 강애띠;강영옥
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.69-81
    • /
    • 2015
  • SNS사용자의 거주 지역을 유추하여 그들이 생성한 데이터에 거주위치를 부여하는 것은 위치희박(location sparsity)과 생태학적 오류문제로 인해 연구결과의 신뢰성이 떨어진다는 평가를 받아온 공간빅데이터 연구에 대안이 될 수 있다. 본 연구에서는 Tweet 사용자의 거주 지역을 유추하는 방법으로 사용자 타임라인데이터 속에서 찾아낸 일상생활활동패턴을 이용하는 방법을 고안하였다. 트윗 사용자의 일상생활활동패턴은 이동궤적과 사용자의 언어(text)에서 확인할 수 있었으며 전자를 활용한 모델을 일상이동패턴모델, 후자를 활용한 모델을 일상 활동장 모델이라 명명하고 각각 모델에 입력될 변수를 선정하였다. 자신의 거주 지역에서 가장 높은 빈도의 트윗 발생 여부와 가장 높은 빈도의 거주행정구역 표현 단어를 사용하는지 아닌지를 종속변수로 한 판별분석을 실시하여 모델을 작성하였으며 설명력은 일상 이동패턴모델, 일상 활동장 모델 각각 67.5%, 57.5%였다. 이 모델을 스트레스 관련 트윗을 작성한 사용자의 타임라인데이터로 구성된 테스트데이터에 입력해본 결과 전체 사용자 48,235명 중 5,301명의 거주 지역을 유추하였고 이를 활용하여 위치 부여된 스트레스 관련 트윗 9,606개를 확보하였다. 본 연구의 유추기법을 통해 기존 SNS데이터 분석연구에서 사용하는 데이터 수집 방법보다 44배 많은 위치 부여 트윗을 확보할 수 있었다. 본 연구방법론은 SNS데이터를 이용한 연구에서 위치 부여된 데이터를 확보하는데 활용 가능할 것으로 판단되며, 각종 지역통계와 상관관계파악을 통해 지역적 현상 분석에도 SNS데이터를 이용할 수 있는 가능성을 높일 것으로 판단된다.

딕셔너리 러닝을 이용한 음파 신호 분류기 설계 (Acoustic Signal Classifier Design using Dictionary Learning)

  • 박성민;사성진;오광명;이희승
    • 자동차안전학회지
    • /
    • 제8권1호
    • /
    • pp.19-25
    • /
    • 2016
  • As new car technology is developing, temporal interaction is needed in automotive. Rhythmic pattern is one of the practical examples of temporal interaction in vehicle. To recognize rhythmic pattern and its input medium, dictionary learning is applicable algorithm. In this paper, performance and memory requirement of the learning algorithm is tested and is sufficiently good for use this acoustic sound.

Sparse kernel classication using IRWLS procedure

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권4호
    • /
    • pp.749-755
    • /
    • 2009
  • Support vector classification (SVC) provides more complete description of the lin-ear and nonlinear relationships between input vectors and classifiers. In this paper. we propose the sparse kernel classifier to solve the optimization problem of classification with a modified hinge loss function and absolute loss function, which provides the efficient computation and the sparsity. We also introduce the generalized cross validation function to select the hyper-parameters which affects the classification performance of the proposed method. Experimental results are then presented which illustrate the performance of the proposed procedure for classification.

  • PDF

CONSTRUCTIONS FOR SPARSE ROW-ORTHOGONAL MATRICES WITH A FULL ROW

  • Cheon, Gi-Sang;Park, Se-Won;Seol, Han-Guk
    • 대한수학회지
    • /
    • 제36권2호
    • /
    • pp.333-344
    • /
    • 1999
  • In [4], it was shown that an n by n orthogonal matrix which has a row of nonzeros has at least ( log2n + 3)n - log2n +1 nonzero entries. In this paper, the matrices achieving these bounds are constructed. The analogous sparsity problem for m by n row-orthogonal matrices which have a row of nonzeros in conjectured.

  • PDF

Comparison of Lasso Type Estimators for High-Dimensional Data

  • Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제21권4호
    • /
    • pp.349-361
    • /
    • 2014
  • This paper compares of lasso type estimators in various high-dimensional data situations with sparse parameters. Lasso, adaptive lasso, fused lasso and elastic net as lasso type estimators and ridge estimator are compared via simulation in linear models with correlated and uncorrelated covariates and binary regression models with correlated covariates and discrete covariates. Each method is shown to have advantages with different penalty conditions according to sparsity patterns of regression parameters. We applied the lasso type methods to Arabidopsis microarray gene expression data to find the strongly significant genes to distinguish two groups.