• Title, Summary, Keyword: 클러스터링

Search Result 2,160, Processing Time 0.039 seconds

Document Clustering using Generic Algorithm and Cluster Measurement (클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링)

  • Choi, Lim Cheon;Park, Soon Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

  • PDF

Seed를 이용한 마이크로어레이 데이터 클러스터링과 유전자 온틀로지를 이용한 클러스터의 해석

  • 강은미;신미영;정호열;박선희;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.244-246
    • /
    • 2004
  • 마이크로어레이 칩 실험을 통하여 대량으로 생산되는 유전자 발현 데이터는 여러 가지 클러스터링 방법을 적용하여 분석할 수 있으며, 생성된 클러스터들 또한 여러 가지 방법으로 해석 할 수 있다. 본 논문에서는 기존의 클러스터링 방법들을 응용한 seed클러스터링 방법을 제안하고 생물학적 온톨로지인 Gene Ontology를 기반으로 클러스터를 해석한다. 본 논문에서는 효과적인 유전자 발현 데이터 클러스터링 방법과 생물학적 지식을 바탕으로 클러스터를 해석, 평가하는 방법을 보여 준다.

  • PDF

Gaussian Mixture Model for Data Clustering using Fuzzy Entropy Measures (데이터 클러스터링을 위한 가우시안 혼합 모델을 이용할 퍼지 정보량 측정)

  • 임채주;최병인;이정훈
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.335-338
    • /
    • 2004
  • 본 논문에서는 기존의 정보량(Entropy) 기반 클러스터링 기법을 향상시키기 위한 방법으로서 퍼지 정보량을 이용하였다 가우시안 혼합 모델을 이용하면, 프로토타입의 목적 함수를 이용하는 클러스터링 기법보다 향상된 결과를 얻을 수 있고, Parameter의 조정이 요구되지 않는다. 그러나, 가우시안 혼합 모델의 사용은 주어진 패턴 집합을 클러스터링하는데 계산량의 증가를 초래하게 된다. 본 논문에서는 가우시안 혼합 모델의 정형화에 요구되는 계산량을 감소시키는 방법을 제시한다 또한 퍼지정보량(Fuzzy Entropy)을 적용하여 기존의 정보량 기반의 클러스터링 결과와 비교 분석하였다.

  • PDF

Advanced Association Rules using XML Document Clustering (XML 문서 클러스터링을 이용한 개선된 연관규칙)

  • 김의찬;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.181-183
    • /
    • 2004
  • 기존의 연관규칙을 생성하는 알고리즘의 문제점을 개선하기 위해 본 논문에서는 XML 문서 클러스터링을 이용하였다. XML 문서 클러스터링을 이용하여 데이터베이스 탐색 횟수 일 조인 개수를 줄여서 수행 속도를 향상시키고, 또한 클러스터링을 통해 얻은 클러스터에서 규칙을 찾기 때문에 기존의 연관규칙 생성 방법에서는 찾지 못했던 규칙들도 찾아낼 수 있다 본 논문에서 사용하는 클러스터링 방법은 XML문서 검색을 위한 3차원 비트맵 인덱싱인 xPlaneb를 사용하여 구현하였다.

  • PDF

An Implementation of Clustering Method using K-Means Algorithm on Multi-Dimensional Data (K-Means 알고리즘을 이용한 다차원 데이터 클러스터링 기법 구현)

  • Ihm, Sun-Young;Shin, HyunSoon;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.1132-1134
    • /
    • 2013
  • K-Means 클러스터링 기법은 데이터마이닝 분야 중 클러스터링 분야에서 가장 널리 쓰이는 방법 중 하나로 주어진 데이터 셋에서 k개의 클러스터를 중심으로 데이터를 분할하는 기법이다. 최근의 데이터는 여러개의 속성을 고려해야 한다. 따라서 본 논문에서는 K-Means 클러스터링 기법을 소개하고, 또 K-Means 클러스터링 기법을 여러 개의 속성을 고려하기 위하여 다차원 데이터에 적용한 실험을 소개한다.

  • PDF

A Cluster Validity Index for Fuzzy Clustering (퍼지 클러스터링의 타당성 평가 기준)

  • 권순학
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.83-89
    • /
    • 1998
  • 본 논문에서는, 퍼지 클러스터의 수가 증가함에 따라 나타나는 퍼지 클러스터링 타당성 평가 기준의 단조 감소 현상을 억제하는 새로운 퍼지 클러스터링 타당성 평가 기준을 제시한다. 또한, 제시된 평가 기준의 성질을 조사하고 기존의 퍼지 클러스터링 타당성 평가 기준과의 차이점에 대하여 논한다. 마지막으로, 퍼지 크러스터링에 자주 인용되는 몇 가지 전형적인 자료에 대한 모의 실험을 통하여 제시된 평가 기준의 효용성을 보인다.

  • PDF

Top-down Hierarchical Clustering using Multidimensional Indexes (다차원 색인을 이용한 하향식 계층 클러스터링)

  • Hwang, Jae-Jun;Mun, Yang-Se;Hwang, Gyu-Yeong
    • Journal of KIISE:Databases
    • /
    • v.29 no.5
    • /
    • pp.367-380
    • /
    • 2002
  • Due to recent increase in applications requiring huge amount of data such as spatial data analysis and image analysis, clustering on large databases has been actively studied. In a hierarchical clustering method, a tree representing hierarchical decomposition of the database is first created, and then, used for efficient clustering. Existing hierarchical clustering methods mainly adopted the bottom-up approach, which creates a tree from the bottom to the topmost level of the hierarchy. These bottom-up methods require at least one scan over the entire database in order to build the tree and need to search most nodes of the tree since the clustering algorithm starts from the leaf level. In this paper, we propose a novel top-down hierarchical clustering method that uses multidimensional indexes that are already maintained in most database applications. Generally, multidimensional indexes have the clustering property storing similar objects in the same (or adjacent) data pares. Using this property we can find adjacent objects without calculating distances among them. We first formally define the cluster based on the density of objects. For the definition, we propose the concept of the region contrast partition based on the density of the region. To speed up the clustering algorithm, we use the branch-and-bound algorithm. We propose the bounds and formally prove their correctness. Experimental results show that the proposed method is at least as effective in quality of clustering as BIRCH, a bottom-up hierarchical clustering method, while reducing the number of page accesses by up to 26~187 times depending on the size of the database. As a result, we believe that the proposed method significantly improves the clustering performance in large databases and is practically usable in various database applications.

An Enhanced Density and Grid based Spatial Clustering Algorithm for Large Spatial Database (대용량 공간데이터베이스를 위한 확장된 밀도-격자 기반의 공간 클러스터링 알고리즘)

  • Gao, Song;Kim, Ho-Seok;Xia, Ying;Kim, Gyoung-Bae;Bae, Hae-Young
    • The KIPS Transactions:PartD
    • /
    • v.13D no.5
    • /
    • pp.633-640
    • /
    • 2006
  • Spatial clustering, which groups similar objects based on their distance, connectivity, or their relative density in space, is an important component of spatial data mining. Density-based and grid-based clustering are two main clustering approaches. The former is famous for its capability of discovering clusters of various shapes and eliminating noises, while the latter is well known for its high speed. Clustering large data sets has always been a serious challenge for clustering algorithms, because huge data set would make the clustering process extremely costly. In this paper, we propose an enhanced Density-Grid based Clustering algorithm for Large spatial database by setting a default number of intervals and removing the outliers effectively with the help of a proper measurement to identify areas of high density in the input data space. We use a density threshold DT to recognize dense cells before neighbor dense cells are combined to form clusters. When proposed algorithm is performed on large dataset, a proper granularity of each dimension in data space and a density threshold for recognizing dense areas can improve the performance of this algorithm. We combine grid-based and density-based methods together to not only increase the efficiency but also find clusters with arbitrary shape. Synthetic datasets are used for experimental evaluation which shows that proposed method has high performance and accuracy in the experiments.

A Study on Clustering Algorithm Using Design Pattern Structure (디자인 패턴 구조를 이용한 클러스터링에 관한 연구)

  • 한정수;김귀정
    • The Journal of the Korea Contents Association
    • /
    • v.2 no.1
    • /
    • pp.68-76
    • /
    • 2002
  • Clustering is representative method of components classification. But, previous clustering method that use cohesion and coupling can not be effective, because design pattern has consisted by relation between classes. In this paper, we classified design patterns with special quality of pattern structure. Classification by clustering had expressed higher correctness degree than classification by facet. Therefore, can do that it is effective that classify design patterns using clustering algorithms that is automatic classification method. When we are searching design patterns, classification of design patterns can compare and analyze similar patterns because similar patterns is saved to same category. Also we can manage repository efficiently because of using and storing link information of patterns.

  • PDF

Link-Based Clustering in Blogosphere (블로그 공간에서의 링크 기반 클러스터링 방안)

  • Song, Suk-Soon;Yoon, Seok-Ho;Kim, Sang-Wook
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.46 no.3
    • /
    • pp.42-49
    • /
    • 2009
  • This paper addresses clustering of blogs and posts in blogosphere. First, we model blogosphere as a social network where blogs and posts correspond to nodes and interactions on posts by blogs corresponds to links. Next, for clustering in blogosphere, we employ LinkClus, a link based algorithm that finds clusters of nodes in a network effectively and efficiently. For more accurate clustering, we propose two refinements: (1) change of granularity from blogs to folders, and (2) removal of blogs and posts being highly likely to incur noises. Finally, we verify the effectiveness of the proposed approach by showing how the posts and blogs in the same cluster are similar to one another in terms of their contents.