• 제목/요약/키워드: pairwise clustering

검색결과 23건 처리시간 0.02초

Medoid Determination in Deterministic Annealing-based Pairwise Clustering

  • Lee, Kyung-Mi;Lee, Keon-Myung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제11권3호
    • /
    • pp.178-183
    • /
    • 2011
  • The deterministic annealing-based clustering algorithm is an EM-based algorithm which behaves like simulated annealing method, yet less sensitive to the initialization of parameters. Pairwise clustering is a kind of clustering technique to perform clustering with inter-entity distance information but not enforcing to have detailed attribute information. The pairwise deterministic annealing-based clustering algorithm repeatedly alternates the steps of estimation of mean-fields and the update of membership degrees of data objects to clusters until termination condition holds. Lacking of attribute value information, pairwise clustering algorithms do not explicitly determine the centroids or medoids of clusters in the course of clustering process or at the end of the process. This paper proposes a method to identify the medoids as the centers of formed clusters for the pairwise deterministic annealing-based clustering algorithm. Experimental results show that the proposed method locate meaningful medoids.

영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법 (Pairwise fusion approach to cluster analysis with applications to movie data)

  • 김희진;박세영
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.265-283
    • /
    • 2022
  • 사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.

기능 도메인 예측을 위한 유전자 서열 클러스터링 (Gene Sequences Clustering for the Prediction of Functional Domain)

  • 한상일;이성근;허보경;변윤섭;황규석
    • 제어로봇시스템학회논문지
    • /
    • 제12권10호
    • /
    • pp.1044-1049
    • /
    • 2006
  • Multiple sequence alignment is a method to compare two or more DNA or protein sequences. Most of multiple sequence alignment tools rely on pairwise alignment and Smith-Waterman algorithm to generate an alignment hierarchy. Therefore, in the existing multiple alignment method as the number of sequences increases, the runtime increases exponentially. In order to remedy this problem, we adopted a parallel processing suffix tree algorithm that is able to search for common subsequences at one time without pairwise alignment. Also, the cross-matching subsequences triggering inexact-matching among the searched common subsequences might be produced. So, the cross-matching masking process was suggested in this paper. To identify the function of the clusters generated by suffix tree clustering, BLAST and CDD (Conserved Domain Database)search were combined with a clustering tool. Our clustering and annotating tool consists of constructing suffix tree, overlapping common subsequences, clustering gene sequences and annotating gene clusters by BLAST and CDD search. The system was successfully evaluated with 36 gene sequences in the pentose phosphate pathway, clustering 10 clusters, finding out representative common subsequences, and finally identifying functional domains by searching CDD database.

아이템의 유사도를 고려한 트랜잭션 클러스터링 (Transactions Clustering based on Item Similarity)

  • 이상욱;김재련
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.250-257
    • /
    • 2002
  • Clustering is a data mining method, which consists in discovering interesting data distributions in very large databases. In traditional data clustering, similarity of a cluster of object is measured by pairwise similarity of objects in that paper. In view of the nature of clustering transactions, we devise in this paper a novel measurement called item similarity and utilize this to perform clustering. With this item similarity measurement, we develop an efficient clustering algorithm for target marketing in each group.

  • PDF

서픽스트리 클러스터링 방법과 블라스트를 통합한 유전자 서열의 클러스터링과 기능검색에 관한 연구 (A Study on Clustering and Identifying Gene Sequences using Suffix Tree Clustering Method and BLAST)

  • 한상일;이성근;김경훈;이주영;김영한;황규석
    • 제어로봇시스템학회논문지
    • /
    • 제11권10호
    • /
    • pp.851-856
    • /
    • 2005
  • The DNA and protein data of diverse species have been daily discovered and deposited in the public archives according to each established format. Database systems in the public archives provide not only an easy-to-use, flexible interface to the public, but also in silico analysis tools of unidentified sequence data. Of such in silico analysis tools, multiple sequence alignment [1] methods relying on pairwise alignment and Smith-Waterman algorithm [2] enable us to identify unknown DNA, protein sequences or phylogenetic relation among several species. However, in the existing multiple alignment method as the number of sequences increases, the runtime increases exponentially. In order to remedy this problem, we adopted a parallel processing suffix tree algorithm that is able to search for common subsequences at one time without pairwise alignment. Also, the cross-matching subsequences triggering inexact-matching among the searched common subsequences might be produced. So, the cross-matching masking process was suggested in this paper. To identify the function of the clusters generated by suffix tree clustering, BLAST was combined with a clustering tool. Our clustering and annotating tool is summarized as the following steps: (1) construction of suffix tree; (2) masking of cross-matching pairs; (3) clustering of gene sequences and (4) annotating gene clusters by BLAST search. The system was successfully evaluated with 22 gene sequences in the pyrubate pathway of bacteria, clustering 7 clusters and finding out representative common subsequences of each cluster

항목 유사도를 고려한 트랜잭션 클러스터링 (Transactions Clustering based on Item Similarity)

  • 이상욱;김재련
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.179-193
    • /
    • 2003
  • 군집화(clustering)는 주어진 객체들 중에서 유사한 것들을 몇몇의 집단으로 그룹화 하여 각 집단의 성격을 파악하는데, 실제적으로 각 객체가 유사한지 그렇지 않은지를 측정할 수 있는 도구가 필요하다. 기존의 군집화에서 객체간에 유사하다는 의미는 각 군집(cluster)안에 있는 객체들이 같은 속성 값이 많으면 많을수록 객체간에 유사성이 높아 유사도가 높은 객체끼리 군집을 이루게 된다는 것을 의미했다. 그 중에서도 범주형 속성을 갖는 군집화는 같은 속성 값이면 1, 서로 다르면 0으로 표현하여 유사성을 측정하는 방법이다. 제안된 알고리듬은 속성 값을 0과1로만 표현하는 것에 대한 문제점을 제시하고 서로 다른 속성이라도 속성간에 친밀한 관계가 있다는 개념을 도입하여 어느 정도 유사한 지를 보여준다. 같은 객체간에 같은 값을 갖는 속성이 하나로 없더라도 구해진 유사도에 의해 유사한 개체끼리는 하나의 군집이 될 수 있는 알고리듬을 만든 후 그 군집에 속해 있는 고객들의 니즈와 구매 선호도에 따라 적절한 타겟 마케팅(Target Marketing)을 할 수 있다.

  • PDF

컴퓨터 문헌 분석 기반의 토끼전 '어족회의' 대목 내용 유사도에 따른 이본 계통 분류 연구 (A Study of Computational Literature Analysis based Classification for a Pairwise Comparison by Contents Similarity in a section of Tokkijeon, 'Fish Tribe Conference')

  • 김동건;정화영
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.15-25
    • /
    • 2022
  • 본 연구는 컴퓨터 문헌 분석 기법을 활용하여 <토끼전> '어족회의' 대목의 계열과 계통을 밝히는 데에 목적을 둔다. 우선 각 단락의 이본 유형을 인코딩하여 코퍼스를 구축하고, 이를 바탕으로 해밍 거리를 이용하여 각 이본 간의 거리 행렬을 산출하였다. 그다음 산출된 거리 행렬을 다차원 척도법, 계층적 군집 분석을 적용하여 이본의 군집 양상을 시각화하여, 기존에 토끼전 전체 단락을 대상으로 한 군집 분석 연구와 비교하여 '어족회의' 대목의 계열과 계통 특징을 살펴보았다. 그 결과 토끼전 전체 단락을 대상으로 한 군집 분석이 6개의 계열을 이루고 있는 것과는 달리, '어족회의' 대목은 5개의 계열을 이루고 있다는 점과 몇몇 이본의 계열 출입이 있다는 점을 확인할 수 있었다. 본 연구의 성과는 계산에 의한 객관적이고 실증적인 방법으로 이본 간의 상대적 거리 측정하고 계통 분류를 했다는 점과 토끼전 전체를 내용을 대상으로 한 계열 분석과 대비하여 어족회의 대목 계열의 특징을 밝혔다는 데에 있다.

응집 계층 군집화 기법을 이용한 이종 공간정보의 M:N 대응 클래스 군집 쌍 탐색 (Detection of M:N corresponding class group pairs between two spatial datasets with agglomerative hierarchical clustering)

  • 허용;김정옥;유기윤
    • 한국측량학회지
    • /
    • 제30권2호
    • /
    • pp.125-134
    • /
    • 2012
  • 본 연구는 두 공간정보의 대응 클래스 군집 쌍 탐색을 중심으로 의미론적 정합과정에서 발생하는 M:N 대응관계를 분석하는 방법을 제안한다. 객체의 공유 관계를 이용하여 클래스의 유사도를 측정하고 높은 유사도를 가지는 클래스들을 군집화함으로써 M:N 대응관계를 탐색하고자 한다. 클래스 사이의 유사도를 그래프 모형으로 표현하고 그래프 임베딩 기법을 적용하여 투영공간에서 클래스 사이의 거리가 클래스 중첩분석에 의한 국지적 유사도에 반비례하도록 개별 클래스들의 투영좌표를 계산하고 군집화를 수행함으로써 계층적 대응 군집 쌍을 탐색할 수 있다. 제안된 방법을 평가하기 위하여 경기도 수원시의 수치지형도와 연속지적도에 적용하여 수치지형도의 면 객체 레이어와 연속지적도의 필지 지목의 대응 군집 쌍을 탐색하였다. 탐색된 대응 클래스 쌍의 F-measure를 측정한 결과 약 0.80에서 0.35 사이의 다양한 값을 얻을 수 있었으며, 클래스 명칭과는 상이한 다양한 대응관계를 얻을 수 있었다.

Global Optimization of Clusters in Gene Expression Data of DNA Microarrays by Deterministic Annealing

  • Lee, Kwon Moo;Chung, Tae Su;Kim, Ju Han
    • Genomics & Informatics
    • /
    • 제1권1호
    • /
    • pp.20-24
    • /
    • 2003
  • The analysis of DNA microarry data is one of the most important things for functional genomics research. The matrix representation of microarray data and its successive 'optimal' incisional hyperplanes is a useful platform for developing optimization algorithms to determine the optimal partitioning of pairwise proximity matrix representing completely connected and weighted graph. We developed Deterministic Annealing (DA) approach to determine the successive optimal binary partitioning. DA algorithm demonstrated good performance with the ability to find the 'globally optimal' binary partitions. In addition, the objects that have not been clustered at small non­zero temperature, are considered to be very sensitive to even small randomness, and can be used to estimate the reliability of the clustering.

센서 네트워크에서의 안전한 통신을 위한 클러스터 기반 키 분배 구조 (Cluster-based Pairwise Key Establishment in Wireless Sensor Networks)

  • 천은미;도인실;오하영;박소영;이주영;채기준;이상호;나재훈
    • 정보처리학회논문지C
    • /
    • 제12C권4호
    • /
    • pp.473-480
    • /
    • 2005
  • 센서 네트워크는 다양한 환경에 설치되어 대상 탐지나 환경 감시 등, 유용한 정보를 제공하는데 사용될 수 있다. 이러한 센서 네트워크에서 센서 노드 간 키를 설정하는 것은 안전한 통신을 위한 가장 기본적인 요구 사항이다. 따라서 본 논문에서는 센서 네트워크에서의 효율적 키 설정을 위해 클러스터에 기반한 구조와 다항식(polynomial)을 사용한 pairwise key 설정 방법을 제안하였다. 제안한 메커니즘에서는 네트워크를 클러스터링하여 각 클러스터 별로 유일한 다항식을 할당하고, 동일 클러스터에 있는 센서들은 클러스터헤드로부터 분배받은 다항식 부분정보(polynomial share)를 사용하여 자신의 전송 범위에 있는 이웃 노드들과 pairwise key를 생성할 수 있다. 그러나 통신하고자 하는 두 센서가 서로의 전송 범위 내에 있으나 다른 클러스터에 존재할 경우 클러스터헤드를 통하여 두 센서 간의 경로키를 전송하여 공유함으로써 두 센서는 안전하게 통신할 수 있다. 경로키의 수가 많아지는 경우 오버헤드가 높아지므로 경로키 수가 적을수록 유리한데, 그 수는 클러스터의 크기, 센서 노드의 수, 센서의 전송 범위, 센서의 밀집도에 따라 다르게 나타나고 시간도 이에 따라 다르기 때문에 적절한 조건을 제공함으로써 경로키 설정을 줄일 수 있다. 따라서 적절한 클러스터 크기와 센서의 전송 범위를 고려하면 제안한 메커니즘의 효율성을 더욱 높일 수 있음을 시뮬레이션을 통해서 확인할 수 있었다.