• 제목/요약/키워드: similarity based clustering

검색결과 323건 처리시간 0.024초

An Improved Automated Spectral Clustering Algorithm

  • Xiaodan Lv
    • Journal of Information Processing Systems
    • /
    • 제20권2호
    • /
    • pp.185-199
    • /
    • 2024
  • In this paper, an improved automated spectral clustering (IASC) algorithm is proposed to address the limitations of the traditional spectral clustering (TSC) algorithm, particularly its inability to automatically determine the number of clusters. Firstly, a cluster number evaluation factor based on the optimal clustering principle is proposed. By iterating through different k values, the value corresponding to the largest evaluation factor was selected as the first-rank number of clusters. Secondly, the IASC algorithm adopts a density-sensitive distance to measure the similarity between the sample points. This rendered a high similarity to the data distributed in the same high-density area. Thirdly, to improve clustering accuracy, the IASC algorithm uses the cosine angle classification method instead of K-means to classify the eigenvectors. Six algorithms-K-means, fuzzy C-means, TSC, EIGENGAP, DBSCAN, and density peak-were compared with the proposed algorithm on six datasets. The results show that the IASC algorithm not only automatically determines the number of clusters but also obtains better clustering accuracy on both synthetic and UCI datasets.

유사 구조 기반 XML 문서의 점진적 클러스터링 (Incremental Clustering of XML Documents based on Similar Structures)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.699-709
    • /
    • 2004
  • XML은 정보 관리와 데이타 교환에서 점차로 더 중요해지고 있다. 효율적인 구조 검색과 문서 통합을 위한 기초 과정은 유사한 구조를 갖는 문서를 클러스터링 하는 것이다. 이것은 구조가 다른 전체 문서를 대상으로 검색하는 것보다 더 신속하고 유연성을 제공하기 때문이다. 따라서 이 논문에서는 XML 문서의 구조 검색과 통합에 유용한 유사 구조기반의 점진적 클러스터링 기법을 제안한다. 기존의 문서 클러스터링에서 벡터를 이용한 문서의 유사도에 의해 클러스터를 형성하는 것과는 다르게 우리는 대량의 데이타에 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 사용하였다. 제안 기법은 먼저 순차 패턴 알고리즘을 이용하여 XML 문서의 대표 구조를 추출한다. 그리고 문서를 하나의 트랜잭션으로, 문서의 대표구조를 트랜잭션의 항목으로 간주하여 유사 구조 항목 기반의 점진적인 클러스터링을 수행한다. 아울러, 클러스터의 응집도와 클러스터간의 유사도를 정의하였고, 이를 이용하여 기존 연구와의 실험에 대한 분석을 통해 제안 기법의 효율성을 분석하였다.

유사성 계수를 이용한 군집화 문제에서 유전자와 국부 최적화 알고리듬의 적용 (Application of Genetic and Local Optimization Algorithms for Object Clustering Problem with Similarity Coefficients)

  • 임동순;오현승
    • 대한산업공학회지
    • /
    • 제29권1호
    • /
    • pp.90-99
    • /
    • 2003
  • Object clustering, which makes classification for a set of objects into a number of groups such that objects included in a group have similar characteristic and objects in different groups have dissimilar characteristic each other, has been exploited in diverse area such as information retrieval, data mining, group technology, etc. In this study, an object-clustering problem with similarity coefficients between objects is considered. At first, an evaluation function for the optimization problem is defined. Then, a genetic algorithm and local optimization technique based on heuristic method are proposed and used in order to obtain near optimal solutions. Solutions from the genetic algorithm are improved by local optimization techniques based on object relocation and cluster merging. Throughout extensive experiments, the validity and effectiveness of the proposed algorithms are tested.

Clustering Parts Based on the Design and Manufacturing Similarities Using a Genetic Algorithm

  • Lee, Sung-Youl
    • 한국산업정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.119-125
    • /
    • 2011
  • The part family (PF) formation in a cellular manufacturing has been a key issue for the successful implementation of Group Technology (GT). Basically, a part has two different attributes; i.e., design and manufacturing. The respective similarity in both attributes is often conflicting each other. However, the two attributes should be taken into account appropriately in order for the PF to maximize the benefits of the GT implementation. This paper proposes a clustering algorithm which considers the two attributes simultaneously based on pareto optimal theory. The similarity in each attribute can be represented as two individual objective functions. Then, the resulting two objective functions are properly combined into a pareto fitness function which assigns a single fitness value to each solution based on the two objective functions. A GA is used to find the pareto optimal set of solutions based on the fitness function. A set of hypothetical parts are grouped using the proposed system. The results show that the proposed system is very promising in clustering with multiple objectives.

Cluster-Based Similarity Calculation of IT Assets: Method of Attacker's Next Targets Detection

  • Dongsung Kim;Seon-Gyoung Shon;Dan Dongseong Kim;Huy-Kang Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.1-10
    • /
    • 2024
  • 공격자들은 공격 대상인 IT 자산을 찾을 때 자신이 가지고 있는 유사한 취약점을 사용하는 경향이 있다. 따라서 IT 자산 중 표적이 될 수 있는 유사한 운영체제, 애플리케이션이 있을 때 이를 사전에 찾아내는 것이 중요하다. 본 논문은 효율적인 취약자산 관리 및 제로데이 대응을 위한 새로운 접근 방식을 제안한다. 해당 방법론은 클러스터링과 유사도 계산 결과를 기반으로 새로운 취약점이나 이미 발견된 취약점에 의해 감염될 가능성이 있는 IT 자산을 탐지하는 기능을 제공한다. 실험 결과, 수집된 전체 자산의 86%의 정확도로 클러스터의 목적에 맞게 분류되었으며, 무작위 자산을 선정하여 유사성 계산 실험을 한 결과 동일한 운영체제 및 서비스를 사용하는 자산이 나열됐다.

Empirical Comparisons of Clustering Algorithms using Silhouette Information

  • Jun, Sung-Hae;Lee, Seung-Joo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제10권1호
    • /
    • pp.31-36
    • /
    • 2010
  • Many clustering algorithms have been used in diverse fields. When we need to group given data set into clusters, many clustering algorithms based on similarity or distance measures are considered. Most clustering works have been based on hierarchical and non-hierarchical clustering algorithms. Generally, for the clustering works, researchers have used clustering algorithms case by case from these algorithms. Also they have to determine proper clustering methods subjectively by their prior knowledge. In this paper, to solve the subjective problem of clustering we make empirical comparisons of popular clustering algorithms which are hierarchical and non hierarchical techniques using Silhouette measure. We use silhouette information to evaluate the clustering results such as the number of clusters and cluster variance. We verify our comparison study by experimental results using data sets from UCI machine learning repository. Therefore we are able to use efficient and objective clustering algorithms.

공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법 (Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model)

  • 조윤호;이상근
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.142-151
    • /
    • 2009
  • 기존의 문서 군집화 기법 NSTC은 문서 군집화 과정 내에서 TF-IDF를 이용하여 문서간 유사도를 측정한다. 본 논문에서는 TF-IDF가 아닌, 공통 Phrase의 관계 그래프를 이용한 새로운 문서간 유사도 측정을 제안한다. 이 방법은 문서 집합 내의 공통 Phrase들의 관계를 나타낸 관계 그래프를 통해 공통 Phrase의 가중치를 부여하는 방법을 제시한다. 또한 실험을 통해 NSTC와 비교하여 본 논문에서 제안한 문서간 유사도 측정 기법이 문서 군집화에 더욱 효과적임을 보였다.

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

다단계 클러스터링 기법을 이용한 이미지 클러스터링 기법에 관한 연구 (Similarity-based Image Clustering Method using Hierarchical Clustering Technique)

  • 한정규;김석대;황수찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.707-709
    • /
    • 2003
  • 본 논문에서는 유사도(similarity) 기반 이미지 클러스터링 기법에 대하여 논하고자 한다. 비트맵 이미지의 특징을 추출하고 이러한 특징에 기반한 유사도 측정 함수들을 소개하고 이미지 클러스터링 알고리즘과 구현을 통한 실험 예제들에 대해서 설명한다. 이 실험에서 우리는 유사도에 따라 이미지들이 계층적(Hierarchical)으로 집단화 되는 계층적 클러스터링 알고리즘을 사용하였다. 이미지의 특징 표현을 위해서는 HSV 기반의 히스토그램을 이용하였다. 본 논문에서 제안한 기법의 실험 결과는 이미지 데이터베이스에서 유사한 이미지를 검색하는데 높은 효율성이 있는 것을 보여준다.

  • PDF

금강 유역을 대상으로 한 GIS 기반의 유역의 유사성 평가 (Catchment Similarity Assessment Based on Catchment Characteristics of GIS in Geum River Catchments, Korea)

  • 이효상;박기순;정성혁;최석근
    • 대한공간정보학회지
    • /
    • 제21권3호
    • /
    • pp.37-46
    • /
    • 2013
  • 유역의 수문학적 유사성 평가는 계측지역의 홍수량 정보를 미계측 유역에서 활용하는 지역화 연구의 기초로서 다양하게 연구되고 있다. GIS 기반의 유역 특성인자를 기반으로 대표적인 수문학적 거리산정법을 활용하여 금강유역의 25개 소유역을 대상으로 유역 그룹화를 수행하고, 이를 유황곡선의 관련 계수(저류계수, 갈수계수, 홍수계수, 풍수계수, 유황계수, 하상계수)를 바탕으로 한 결과와 비교하여 유역 유사성 평가의 효용성을 확인하였다. 수문학적 거리산정을 위하여 영국의 FEH(Flood Estimation Handbook)에서 제안하는 유클라디안 거리법을 적용하였으며, 유황관련계수의 군집화를 위하여 SPSS프로그램을 사용하여 계층적 군집분석의 Ward법을 적용하였다. 유역 그룹화를 수행한 결과 유역특성인자를 반영한 수문학적 거리(유사성 척도)에 의한 그룹은 총 3개(H1, H2, H3)이며, 유황관련계수에 의한 그룹은 총 4개(F1, F2, F3, F4)로 분류되었다. 두 그룹들을 대응하여 비교분석한 결과 H1그룹의 7개 유역 중 6개 유역과 H3의 모든 유역이 F1그룹과 대응하였고 H2그룹의 5개 유역 중 4개 유역이 F2그룹과 대응하였으므로 본 연구의 유사성 척도에 의한 유역 그룹화가 효용성이 있음을 확인하였다.