• Title/Summary/Keyword: 희박데이터

Search Result 70, Processing Time 0.025 seconds

Web Log Data Sparsity Analysis for OLAP (웹 로그 데이터의 OLAP 연산을 위한 희박성 분석)

  • 김지현;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.58-60
    • /
    • 2001
  • 하루에도 수십 수백 메가 바이트까지 증가하는 웹 로그 데이터를 이용하여 실시간에 다차원분석을 가능하게 하기 위해서는 OLAP의 적용이 필요하다. 하지만 OLAP을 적용하는데 있어서 빠른 응답시간을 얻기 위해 사전처리(Precomputation)를 수행 할 시 심각한 데이터의 희박성으로 인해 데이터 폭발 현상이 발생된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 OLAP적용 시 희박성을 일으키는 원인들을 밝히고, 2, 3 차원에서의 희박성 형태를 분석함으로써 웹 로그 데이터의 희박성 처리 방식 및 성능평가에 기반이 되게 한다.

  • PDF

Korea Electric Power Research Institute, Ewha Womans University (OLAP시스템에서 희박 데이터의 패턴 분류 및 성능 평가)

  • 강주영;이봉재;송재주;신진호;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.178-180
    • /
    • 2004
  • OLAP(On-Line Analytical Processing)은 데이터 웨어하우스 내의 방대한 양의 데이터에 대해 사용자와의 상호 작용이 가능하도록 질의에 대하여 빠른 응답성능을 보장해야 한다. 이를 위해 OLAP 시스템은 데이터에 대한 다량의 다차원 집계 연산을 수행해야 하기 때문에, 일반적으로 사전 연산 결과를 저장하여 직접적인 집계 연산을 줄임으로써 응답 성능을 놓이는 방법을 사용하고 있다 OLAP 다차원 데이터의 희박성은 이러한 사전 연산 시 데이터 폭발 현상을 일으켜 도리어 성능을 저하시키는 요인으로 작용할 수 있다. 본 논문에서는 데이터의 희박성과 성능 문제에 대해 고찰하고 OLAP 응용에서 발생할 수 있는 다차원 데이터의 희박성 패턴에 대해 정의하였다. 또한 정의된 패턴에 따라 희박 데이터를 생성하는 데이터 생성기를 구현하고 이를 이용하여 생성된 데이터를 기반으로 MS SQL Server Analysis Services와 Pilot DSS의 두 OLAP 제품의 성능을 평가하고 결과를 비교하였다.

  • PDF

OLAP System and Performance Evaluation for Analyzing Web Log Data (웹 로그 분석을 위한 OLAP 시스템 및 성능 평가)

  • 김지현;용환승
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.5
    • /
    • pp.909-920
    • /
    • 2003
  • Nowadays, IT for CRM has been growing and developed rapidly. Typical techniques are statistical analysis tools, on-line multidimensional analytical processing (OLAP) tools, and data mining algorithms (such neural networks, decision trees, and association rules). Among customer data, web log data is very important and to use these data efficiently, applying OLAP technology to analyze multi-dimensionally. To make OLAP cube, we have to precalculate multidimensional summary results in order to get fast response. But as the number of dimensions and sparse cells increases, data explosion occurs seriously and the performance of OLAP decreases. In this paper, we presented why the web log data sparsity occurs and then what kinds of sparsity patterns generate in the two and t.he three dimensions for OLAP. Based on this research, we set up the multidimensional data models and query models for benchmark with each sparsity patterns. Finally, we evaluated the performance of three OLAP systems (MS SQL 2000 Analysis Service, Oracle Express and C-MOLAP).

  • PDF

Optimal number of dimensions in linear discriminant analysis for sparse data (희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정)

  • Shin, Ga In;Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.6
    • /
    • pp.867-876
    • /
    • 2017
  • Datasets with small n and large p are often found in various fields and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classification problems. One approach of those models tries to detect dimensions that distinguish between groups well and the number of the detected dimensions is typically smaller than p. In such models, the number of dimensions is important because the prediction and visualization of data and can be usually determined by the K-fold cross-validation (CV). However, in sparse data scenarios, the CV is not reliable for determining the optimal number of dimensions since there can be only a few observations for each fold. Thus, we propose a method to determine the number of dimensions using a measure based on the standardized distance between the mean values of each group in the reduced dimensions. The proposed method is verified through simulations.

Talent Recommendation System based-on Personal Propensity and Collaborative Filtering (개인화 요인과 협업적 필터링을 이용한 개인화 재능추천 시스템)

  • Lee, Tae-Su;Seo, Jung-Yeon;Jeon, Eun-Kwang;Lee, Hwa-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.481-482
    • /
    • 2016
  • 스마트 디바이스의 발전과 IoT 시대에 들어서면서 다양하고 유용한 데이터가 끊임없이 쏟아져 나오고 있다. 이러한 데이터들을 기반으로 개인화된 추천 시스템의 중요성은 높아지고 있다. 추천 시스템에서 가장 성공적인 협업적 필터링 기법은 고객에 대한 일정 수준 이상의 데이터가 존재해야 한다. 즉, 충분한 데이터가 존재하지 않는다면 정확하지 않은 추천 결과를 출력하는 희박성의 문제가 생긴다. 본 연구에서는 개개인을 구분 지을 수 있는 개인화 요인에 가중치를 두어 기존의 협업적 필터링 기법이 가지는 희박성 문제를 해결하고자 한다.

데이터 웨어하우스 구축, 성공하려면 ?

  • Sin, Dong-Won
    • Digital Contents
    • /
    • no.6 s.49
    • /
    • pp.9-16
    • /
    • 1997
  • 데이터 웨어하우스를 쉽게 생각하고 접근해서는 안된다. 유행처럼 '우리도 한번 해볼까'라고 시도한다면 성공할 확률이 희박하다. 왜 하는지, 데이터 웨어하우스를 구축했을 때 이점은 무엇인지부터 꼼꼼히 점검해볼 필요가 있다. 시기를 정해놓고 매듭짓는 프로젝트가 아닌만큼 장기적인 차원에서 접근해야 한다. 데이터 웨어하우스는 정보기술 차원이 아니라 그 이상이라는 점을 염두에 둘 필요가 있다.

  • PDF

희박한 고객 활동 데이터에서 최신성 기반 추천 성능 향상 연구

  • Baek, Sang-Hun;Kim, Ju-Yeong;An, Sun-Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.781-784
    • /
    • 2019
  • 최근 AI를 산업 서비스에 적용하기 위해 많은 회사들이 활발히 연구를 하고 있다. 아마존과 넷플릭스 같은 거대 기업들은 이미 빅데이터와 AI 머신러닝을 이용한 추천 시스템을 구현하였고 아마존은 매출의 35%가 추천에 의해 발생하고 넷플릭스 75%의 사용자가 추천을 통해 영화를 선택한다고 보고되었다. 이러한 두 기업의 높은 추천 효율성의 이유는 협업 필터링(Collaborative filtering)과 같은 다양한 추천 알고리즘과 방대한 상품 및 고객 행동(구매, 시청 등) 데이터 등이 존재하고 있기 때문이다. 기계학습에서 알고리즘 학습을 위한 데이터의 양이 많지 않을 경우 알고리즘의 성능을 보장할 수 없다는 것이 일반적인 의견이다. 방대한 데이터를 가진 기업에서 추천 알고리즘을 적극적으로 활용 및 연구하고 있는 것도 이러한 이유 때문이다. 반면, 오프라인 및 여행사 기반에서 온라인 기반으로 영역을 차츰 확대하고 있는 항공 서비스 고객 데이터의 경우, 산업의 특성상 많은 회원에 비해 고객 1명당 온라인에서 활동하는 이력이 많지 않은 것이 특징이다. 이는, 추천 알고리즘을 통한 서비스 제공에서 큰 제약사항으로 작용한다. 본 연구에서는, 이러한 희박한 고객 활동 데이터에서 최신성 기반의 추천 시스템을 통하여 제약사항을 극복하고 추천 효율을 높이는 방법을 제안한다. 고객의 최근 접속 이력 로그를 시간 기준으로 데이터 셋을 분할하여 추천 알고리즘에 반영하였을 때, 추천된 노선에 대한 고객의 반응을 추천 성능 지표인 CTR(Click-Through Rate)로 측정하여 성능을 확인해 보았다.

Improved Movie Recommendation System based-on Personal Propensity and Collaborative Filtering (개인성향과 협업 필터링을 이용한 개선된 영화 추천 시스템)

  • Park, Doo-Soon
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.2 no.11
    • /
    • pp.475-482
    • /
    • 2013
  • Several approaches to recommendation systems have been studied. One of the most successful technologies for building personalization and recommendation systems is collaborative filtering, which is a technique that provides a process of filtering customer information based on such information profiles. Collaborative filtering systems, however, have a sparsity if there is not enough data to recommend. In this paper, we suggest a movie recommendation system, based on the weighted personal propensity and the collaborating filtering system, in order to provide a solution to such sparsity. Furthermore, we assess the system's applicability by using the open database MovieLens, and present a weighted personal propensity framework for improvement in the performance of recommender systems. We successfully come up with a movie recommendation system through the optimal personalization factors.

Transitive Similarity Evaluation Model for Improving Sparsity in Collaborative Filtering (협업필터링의 희박 행렬 문제를 위한 이행적 유사도 평가 모델)

  • Bae, Eun-Young;Yu, Seok-Jong
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.12
    • /
    • pp.109-114
    • /
    • 2018
  • Collaborative filtering has been widely utilized in recommender systems as typical algorithm for outstanding performance. Since it depends on item rating history structurally, The more sparse rating matrix is, the lower its recommendation accuracy is, and sometimes it is totally useless. Variety of hybrid approaches have tried to combine collaborative filtering and content-based method for improving the sparsity issue in rating matrix. In this study, a new method is suggested for the same purpose, but with different perspective, it deals with no-match situation in person-person similarity evaluation. This method is called the transitive similarity model because it is based on relation graph of people, and it compares recommendation accuracy by applying to Movielens open dataset.

The sparse vector autoregressive model for PM10 in Korea (희박 벡터자기상관회귀 모형을 이용한 한국의 미세먼지 분석)

  • Lee, Wonseok;Baek, Changryong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.4
    • /
    • pp.807-817
    • /
    • 2014
  • This paper considers multivariate time series modelling of PM10 data in Korea collected from 2008 to 2011. We consider both temporal and spatial dependencies of PM10 by applying the sparse vector autoregressive (sVAR) modelling proposed by Davis et al. (2013). It utilizes the partial spectral coherence to measure cross correlation between different regions, in turn provides the sparsity in the model while balancing the parsimony of model and the goodness of fit. It is also shown that sVAR performs better than usual vector autoregressive model (VAR) in forecasting.