• 제목/요약/키워드: Data sparsity

검색결과 174건 처리시간 0.023초

An Exploratory Study for Decreasing Error of Prediction Value of Recommended System on User Based

  • Lee, Hee-Choon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권1호
    • /
    • pp.77-86
    • /
    • 2006
  • This study is to investigate the error of prediction value with related variables from the recommended system and to examine the error of prediction value with related variables. To decrease the error on the collaborative recommended system on user based, this research explored the effects on the prediction related response pair between raters' demographic variables and Pearson's coefficient and sparsity. The result shows comparative analysis between existing error of prediction value and conditioned one.

  • PDF

협력필터링의 데이터 희소성 해결을 위한 자카드 지수 반영의 유사도 성능 분석 (Performance Analysis of Similarity Reflecting Jaccard Index for Solving Data Sparsity in Collaborative Filtering)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.59-66
    • /
    • 2016
  • 협력 필터링 시스템에서 데이터 희소성 문제의 해결을 위해 공통평가항목수를 반영하는 방법이 연구되었다. 이러한 방법으로 널리 알려진 자카드 지수는 기존의 유사도 척도와 결합되어 성능을 개선할 수 있었다. 그러나, 다양한 데이터 환경에서 여러 유사도 척도들과 각각 결합했을 때의 성능 개선 효과에 대한 분석 연구는 미미하므로, 본 연구는 이에 대한 분석을 목적으로 한다. 우선 자카드 지수 자체를 유사도 척도로 사용했을때 희소한 데이터셋 상에서 전통적인 척도들보다 월등한 예측 성능을 보였고 추천 성능도 매우 우수하였다. 자카드 지수를 결합함으로써 기존 유사도 척도는 데이터 특성에 상관없이 성능이 대개 향상되었고, 특히 코사인 유사도는 희소한 데이터셋에서 가장 큰 향상을 이루었으나, 평균차이 제곱(Mean Squared Difference)의 유사도는 밀집된 데이터셋에서 오히려 저하된 예측 성능을 보였다. 따라서, 자카드 지수를 결합하여 사용하기 위해 데이터 환경 특성과 유사도 척도를 고려할 필요가 있다.

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

Adaptive lasso를 이용한 희박벡터자기회귀모형에서의 변수 선택 (Adaptive lasso in sparse vector autoregressive models)

  • 이슬기;백창룡
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.27-39
    • /
    • 2016
  • 본 논문은 다차원의 시계열 자료 분석에서 효율적인 희박벡터자기회귀모형에서의 모수 추정에 대해서 연구한다. 희박벡터자기회귀모형은 영에 가까운 계수를 정확이 영으로 둠으로써 희박성을 확보한다. 따라서 변수 선택과 모수 추정을 한꺼번에 할 수 있는 lasso를 이용한 방법론을 희박벡터자기회귀모형의 추정에 쓸 수 있다. 하지만 Davis 등(2015)에서는 모의실험을 통해 일반적인 lasso의 경우 영이아닌 계수를 참값보다 훨씬 더 많이 찾아 희박성에 약점이 있음을 보고하였다. 이에 따라 본 연구는 희박벡터자기회귀모형에 adaptive lasso를 이용하면 일반 lasso보다 희박성을 비롯한 전반적인 모수의 추정이 매우 유의하게 개선됨을 보인다. 또한 adaptive lasso에서 쓰이는 튜닝 모수들에 대한 선택도 아울러 논의한다.

압축센싱기법 기반 L1-SVD 도래각 추정 (Compressive Sensing-Based L1-SVD DOA Estimation)

  • 조윤성;백지웅;이준호;고요한;조성우
    • 한국전자파학회논문지
    • /
    • 제27권4호
    • /
    • pp.388-394
    • /
    • 2016
  • 안테나 배열을 통한 방향 탐지는 여러 분야에서 활발하게 이루어지고 있는 연구 분야이다. Beamforming, Capon's method, maximum likelihood(ML), MUSIC 등과 같은 방향 탐지 알고리즘이 대표적이다. 최근 방향 탐지 이론은 압축센싱기법을 이용하여 신호의 희소도를 이용한 방법의 연구가 수행되고 있다. 본 논문에서는 그 중 하나인 신호의 데이터 행렬을 fitting하는 L1-SVD 알고리즘의 성능을 알아보기 위해 MUSIC 알고리즘과 비교하여 장단점을 알아본다.

Using Genre Rating Information for Similarity Estimation in Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.93-100
    • /
    • 2019
  • 유사도 계산은 메모리 기반 협력필터링 시스템의 성능에 매우 중요하다. 이 시스템들은 사용자 평가치들을 이용하여 온라인 상업 사이트에서 고객들에게 상품을 추천한다. 더욱 적합한 추천을 위해 현 사용자와 가장 유사한 사용자들을 선정하여 참조한다. 기존 문헌에는 많은 유사도 척도들이 개발되었는데, 이들은 대개 데이터 희소성이나 완전 시작 문제를 내포하고 있다. 본 논문에서는 기존 척도들과는 달리 사용자 평가치들로부터 선호 정보를 최대한 추출함으로써 희소한 데이터 조건에서도 더욱 신뢰할 수 있는 유사도값을 산출하고자 한다. 사용자 평가치 뿐만 아니라 데이터셋이 제공하는 영화장르 정보를 이용하는 새로운 유사도 척도를 제시한다. 본 척도와 기존의 관련된 척도들의 성능 실험을 하였고, 그 결과, 제안 척도는 주요 성능 평가기준 상으로 더욱 우수하거나 유사한 성능 결과를 보임을 확인하였다.

신용카드 추천을 위한 다중 프로파일 기반 협업필터링 (Collaborative Filtering for Credit Card Recommendation based on Multiple User Profiles)

  • 이원철;윤협상;정석봉
    • 산업경영시스템학회지
    • /
    • 제40권4호
    • /
    • pp.154-163
    • /
    • 2017
  • Collaborative filtering, one of the most widely used techniques to build recommender systems, is based on the idea that users with similar preferences can help one another find useful items. Credit card user behavior analytics show that most customers hold three or less credit cards without duplicates. This behavior is one of the most influential factors to data sparsity. The 'cold-start' problem caused by data sparsity prevents recommender system from providing recommendation properly in the personalized credit card recommendation scenario. We propose a personalized credit card recommender system to address the cold-start problem, using multiple user profiles. The proposed system consists of a training process and an application process using five user profiles. In the training process, the five user profiles are transformed to five user networks based on the cosine similarity, and an integrated user network is derived by weighted sum of each user network. The application process selects k-nearest neighbors (users) from the integrated user network derived in the training process, and recommends three of the most frequently used credit card by the k-nearest neighbors. In order to demonstrate the performance of the proposed system, we conducted experiments with real credit card user data and calculated the F1 Values. The F1 value of the proposed system was compared with that of the existing recommendation techniques. The results show that the proposed system provides better recommendation than the existing techniques. This paper not only contributes to solving the cold start problem that may occur in the personalized credit card recommendation scenario, but also is expected for financial companies to improve customer satisfactions and increase corporate profits by providing recommendation properly.

빅데이터 기반 추천시스템을 위한 협업필터링의 최적화 규제 (Regularized Optimization of Collaborative Filtering for Recommander System based on Big Data)

  • 박인규;최규석
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.87-92
    • /
    • 2021
  • 빅데이터 기반의 추천시스템 모델링에서 바이어스, 분산, 오류 및 학습은 성능에 중요한 요소이다. 이러한 시스템에서는 추천 모델이 설명도를 유지하면서 복잡도를 줄여야 한다. 또한 데이터의 희소성과 시스템의 예측은 서로 반비례의 속성을 가지기 마련이다. 따라서 희소성의 데이터를 인수분해 방법을 활용하여 상품간의 유사성을 학습을 통한 상품추천모델이 제안되어 왔다. 본 논문에서는 이 모델의 손실함수에 대한 최적화 방안으로 max-norm 규제를 적용하여 모델의 일반화 능력을 향상시키고자 한다. 해결방안은 기울기를 투영하는 확률적 투영 기울기 강하법을 적용하는 것이다. 많은 실험을 통하여 데이터가 희박해질수록 기존의 방법에 비해 제안된 규제 방법이 상대적으로 효과가 있다는 것을 확인하였다.

단체법에서 여러가지 상하 분해요소 수정방법들의 비교 (A comparative study between various LU update methods in the simplex method)

  • 임성묵;김기태;박순달
    • 한국국방경영분석학회지
    • /
    • 제29권1호
    • /
    • pp.28-42
    • /
    • 2003
  • The simplex method requires basis update in each iteration, which is the most time consuming process. Several methods have been developed for the update of basis which is represented in LU factorized form, such as Bartels-Golub's method, Forrest-Tomlin's method, Reid's method, Saunders's method, etc. In this research, we compare between the updating methods in terms of sparsity, data structure and computing time issues. The analysis is mainly based on the computational experience.