• 제목/요약/키워드: Categorical similarity

검색결과 22건 처리시간 0.02초

On the clustering of huge categorical data

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1353-1359
    • /
    • 2010
  • Basic objective in cluster analysis is to discover natural groupings of items. In general, clustering is conducted based on some similarity (or dissimilarity) matrix or the original input data. Various measures of similarities between objects are developed. In this paper, we consider a clustering of huge categorical real data set which shows the aspects of time-location-activity of Korean people. Some useful similarity measure for the data set, are developed and adopted for the categorical variables. Hierarchical and nonhierarchical clustering method are applied for the considered data set which is huge and consists of many categorical variables.

소비자의 브랜드편익이 브랜드 확장에 미치는 영향 - 상표신념의 매개효과와 범주적 유사성의 조절효과를 중심으로 - (The influence of brand benefit on the brand extension : focused on trademark belief and categorical similarity)

  • 이선택;김귀곤
    • 디지털융복합연구
    • /
    • 제16권4호
    • /
    • pp.127-135
    • /
    • 2018
  • 본 연구는 소비자의 브랜드편익(상징적 vs. 기능적)이 브랜드확장에 미치는 영향을 살펴보는 것으로, 특히 상표신념의 매개효과와 범주적 유사성의 조절효과를 살펴보았다. 이를 위하여 초점집단면접과 프리테스트를 통해 2개의 제품범주(시계와 가방)에서 각각 2개의 모브랜드(롤렉스 vs. 카시오, 프라다 vs. 코치)와 2개의 확장제품(팔찌, 구두)을 자극물로 선정하고, 구글(www.google.com)의 설문조사 사이트를 통해 전국의 성인남녀를 대상으로 196개의 표본자료를 수집하여 부적절한 응답지를 제외한 193개의 응답지로 최종 회귀분석을 하였다. 연구결과 소비자가 추구하는 브랜드편익에 따라 브랜드확장에 대한 태도가 달라질 수 있다는 선행연구의 결과를 재확인하였으며, 이는 상표신념에 의해 완전 매개된다는 점도 확인하였다. 또한 본 연구에서는 소비자의 브랜드편익이 브랜드 확장태도에 미치는 영향이 범주적 유사성에 의해 조절될 수 있음도 확인하였다. 이러한 연구결과는 상표신념의 구축이 브랜드확장 전략의 하나로 충분히 사용될 수 있다는 이론적 시사점과 범주적 유사성을 고려한 브랜드커뮤니케이션 전략이 브랜드 편익에 따라 달라져야 한다는 실무적 시사점을 제공한다. 또 본 연구를 활용하여, 브랜드 적합성 또는 충성도 등 다양한 조절요인과 매개요인과의 관계설정도 가능하리라 본다.

범주형 값들이 순서를 가지고 있는 데이터들의 클러스터링 기법 (Clustering Algorithm for Sequences of Categorical Values)

  • 오승준;김재련
    • 산업경영시스템학회지
    • /
    • 제26권1호
    • /
    • pp.17-21
    • /
    • 2003
  • We study clustering algorithm for sequences of categorical values. Clustering is a data mining problem that has received significant attention by the database community. Traditional clustering algorithms deal with numerical or categorical data points. However, there exist many important databases that store categorical data sequences. In this paper, we introduce new similarity measure and develop a hierarchical clustering algorithm. An experimental section shows performance of the proposed approach.

Clustering method for similar user with Miexed Data in SNS

  • Song, Hyoung-Min;Lee, Sang-Joon;Kwak, Ho-Young
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권11호
    • /
    • pp.25-30
    • /
    • 2015
  • The enormous increase of data with the development of the information technology make internet users to be hard to find suitable information tailored to their needs. In the face of changing environment, the information filtering method, which provide sorted-out information to users, is becoming important. The data on the internet exists as various type. However, similarity calculation algorithm frequently used in existing collaborative filtering method is tend to be suitable to the numeric data. In addition, in the case of the categorical data, it shows the extreme similarity like Boolean Algebra. In this paper, We get the similarity in SNS user's information which consist of the mixed data using the Gower's similarity coefficient. And we suggest a method that is softer than radical expression such as 0 or 1 in categorical data. The clustering method using this algorithm can be utilized in SNS or various recommendation system.

범주형 값들이 순서를 가지고 있는 데이터들의 클러스터링 기법 (Clustering Algorithm for Sequences of Categorical Values)

  • 오승준;김재련
    • 한국산업경영시스템학회:학술대회논문집
    • /
    • 한국산업경영시스템학회 2002년도 춘계학술대회
    • /
    • pp.125-132
    • /
    • 2002
  • We study clustering algorithm for sequences of categorical values. Clustering is a data mining problem that has received significant attention by the database community. Traditional clustering algorlthms deal with numerical or categorical data points. However, there exist many important databases that store categorical data sequences. In this paper we introduce new similarity measure and develope a hierarchical clustering algorithm. An experimental section shows performance of the proposed approach.

  • PDF

On the Categorical Variable Clustering

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제7권2호
    • /
    • pp.219-226
    • /
    • 1996
  • Basic objective in cluster analysis is to discover natural groupings of items or variables. In general, variable clustering was conducted based on some similarity measures between variables which have binary characteristics. We propose a variable clustering method when variables have more categories ordered in some sense. We also consider some measures of association as a similarity between variables. Numerical example is included.

  • PDF

Initial Mode Decision Method for Clustering in Categorical Data

  • Yang, Soon-Cheol;Kang, Hyung-Chang;Kim, Chul-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.481-488
    • /
    • 2007
  • The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. The k-modes algorithm is to extend the k-means paradigm to categorical domains. The algorithm requires a pre-setting or random selection of initial points (modes) of the clusters. This paper improved the problem of k-modes algorithm, using the Max-Min method that is a kind of methods to decide initial values in k-means algorithm. we introduce new similarity measures to deal with using the categorical data for clustering. We show that the mushroom data sets and soybean data sets tested with the proposed algorithm has shown a good performance for the two aspects(accuracy, run time).

  • PDF

범주형 속성 기반 군집화를 위한 새로운 유사 측도 (A New Similarity Measure for Categorical Attribute-Based Clustering)

  • 김민;전주혁;우경구;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.71-81
    • /
    • 2010
  • 데이터의 군집을 찾아내는 문제는 패턴 인식, 이미지 처리, 시장 조사 등 많은 응용 분야에서 널리 사용되고 있다. 군집의 질을 결정하는 핵심 요소로는 유사 측도, 차원의 개수 등이 있다. 유사 측도는 데이터의 특성을 반영하여 다르게 정의되어야 하는데, 대부분 기존의 연구들은 데이터를 특징 지어주는 속성이 수치형으로 주어진 경우에 국한되어 있었다. 속성이 범주형으로 주어진 경우도 실생활에 많이 존재하지만, 범주형 변수에 대한 속성값의 유사성은 값의 순서가 고유하게 정해지지 않아서 정의하기 어렵다. 이에 더하여, 고차원 데이터에 대해서는 데이터 점들이 희박하게 위치하여 가까운 점과 먼 점간의 차이가 거의 없고, 군집화 결과가 좋지 않을 수 있다. 이 문제를 해결하기 위해 부분 차원 군집화 방법이 제안되어 왔다. 부분 차원 군집화 방법은 각 군집을 발견하기에 적합한 부분 차원을 선택하면서 군집화를 수행하는 방법이다. 본 논문에서는 범주형 속성으로 특징지어진 고차원 데이터를 부분 차원 군집화하기 위한 새로운 유사 측도를 제안한다. 유사 측도는 각 군집은 다른 군집과 구별되는 특정 정보를 잘 표현할 수 있어야 한다는 기본적인 가정 하에 속성들 사이의 상관성을 반영하여 정의되었다. 이들 모두를 반영한 유사측도는 기존에 존재하지 않았다는 점에서 본 연구는 의미가 있다. 실제 데이터 집합을 군집화하는 실험을 통해 제안하는 방법이 다른 군집화 방법보다 저차원 데이터와 고차원 데이터 모두에 대해 좀 더 정확한 군집 결과를 얻을 수 있음을 보였다.

차원간 연관관계와 하이퍼그래프 분할법을 이용한 범주형 속성을 가진 데이터의 클러스터링 (Clustering Data with Categorical Attributes Using Inter-dimensional Association Rules and Hypergraph Partitioning)

  • 이성기;윤덕균
    • 산업경영시스템학회지
    • /
    • 제24권65호
    • /
    • pp.41-50
    • /
    • 2001
  • Clustering in data mining is a discovery process that groups a set of data such that the intracluster similarity is maximized and intercluster similarity is minimized. The discovered clusters from clustering process are used to explain the characteristics of the data distribution. In this paper we propose a new methodology for clustering related transactions with categorical attributes. Our approach starts with transforming general relational databases into a transactional databases. We make use of inter-dimensional association rules for composing hypergraph edges, and a hypergraph partitioning algorithm for clustering the values of attributes. The clusters of the values of attributes are used to find the clusters of transactions. The suggested procedure can enhance the interpretation of resulting clusters with allocated attribute values.

  • PDF

범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘 (A K-Nearest Neighbor Algorithm for Categorical Sequence Data)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.215-221
    • /
    • 2005
  • 최근에는 단백질 시퀀스, 소매점 거래 데이터, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 본 논문에서는 이런 시퀀스 데이터들을 분류하는 문제를 다룬다. 분류 기법 으로는 의사결정 나무나 베이지안 분류기, K-NN방법 등 석러 종류가 있는데, 본 연구에서는 또-U방법을 이용하여 시퀀스들을 분류한다. 또한, 시퀀스들간의 유사도를 구하기 위한 새로운 계산 방법과 효율적인 계산 방법도 제안한다.

  • PDF