• Title/Summary/Keyword: 클러스터링 문제

Search Result 430, Processing Time 0.027 seconds

Association-rule based ensemble clustering for adopting a prior knowledge (사전정보 활용을 위한 관련 규칙 기반의 Ensemble 클러스터링)

  • Go, Song;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.67-70
    • /
    • 2007
  • 본 논문은 클러스터링 문제에서 사전 정보에 대한 활용의 효율을 개선시킬 수 있는 방법을 제안한다. 클러스터링에서 사전 정보의 존재 시 이의 활용은 성능을 개선시킬 수 있는 계기가 될 수 있으므로 그의 활용 폭을 늘리기 위한 방법으로 다양한 사용 방법의 적용인 semi-supervised 클러스터링 앙상블을 제안한다. 사전 정보의 활용 방법의 방안으로써 association-rule의 개념을 접목하였다. 클러스터 수를 다르게 적용하더라도 패턴간의 유사도가 높으면 같은 그룹에 속할 확률은 높아진다. 다양한 초기화에 따른 클러스터의 동작은 사전 정보의 활용을 다양화 시키게 되며, 사전 정보에 충족하는 각각의 클러스터 결과를 제시한다. 결과를 총 취합하여 association-matrix를 형성하면 패턴간의 유사도를 얻을 수 있으며 결국 association-matrix를 통해 클러스터링 할 수 있는 방법을 제시한다.

  • PDF

Improving the G-K Clustering Performance using the Modified Mountain Method (변형된 Mountain 방법을 이용한 G-K 클러스터링 성능 개선)

  • Kim, Sung-Suk;Jeon, Byeong-Seok;Kim, Joo-Sik;Ryu, Jeong-Woong;Lhee, Chin-Gook
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2546-2548
    • /
    • 2003
  • G-K 클러스터링이 가지는 우수한 클러스터 분류 성능에도 불구하고 데이터의 편중 및 분포 밀도에 의하여 클러스터링의 결과과 만족스럽지 못하는 경우가 발생한다. 제안된 방법에서는, G-K 클러스터링에서 데이터의 분포 및 밀도 등과 같은 다양한 조건에 대한 문제를 동시에 고려함으로써 클러스터링 결과를 개선한다. G-K 클러스터링에서 일부 파라미터의 수동적 파라미터 결정 방법을 Mountain 방법을 이용하여 능동적인 알고리즘으로 대치하여 클러스터 최적화 과정을 더욱 용이하게 한다. 이러한 클러스터링의 장점은 뉴로-퍼지 모델의 규칙 감소와 성능개선으로 나타나며 이를 시뮬레이션을 통하여 보이고자 한다.

  • PDF

Integration of Distributed Biological Data using Modified K-means Algorithm (K-means 알고리즘을 사용한 분산 바이오 데이터 통합화)

  • Ryu, Byung-Gul;Shin, Dong-Kyoo;Shin, Dong-Il;Jeong, Jong-Il
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.32-35
    • /
    • 2007
  • Bioinformatics의 목표는 생물학적인 질의를 해결하는 것과 생물학자들이 수집된 데이터를 분석하고 검색을 하여 생물학자들이 정확한 일을 수행하는 것이다. 인터넷은 여러 조사 그룹의 데이터베이스에 동시에 접근가능한 수단을 제공했으나 이러한 분산 환경에서 많은 양의 데이터는 전송 시의 시간 지연 문제와 최종 검색시의 느린 검색 속도 문제를 나타낸다. 데이터 클러스터링은 데이터의 검색시 이러한 문제점을 해결하기 위하여 이용될 수 있는 방법이지만 단순 적용시에는 데이터의 양에 비례하는 실행 시간이 또 다른 문제를 발생시킨다. 본 논문에서는 바이오데이터의 효율적인 클러스터링을 위한 개선된 분산 클러스터링 시나리오와 이를 위해 수정된 K-means 알고리즘을 제시한다. 최종 실험 결과는 20% 이상 향상된 실행 속도를 보여준다.

  • PDF

An Ensemble Clustering Algorithm based on a Prior Knowledge (사전정보를 활용한 앙상블 클러스터링 알고리즘)

  • Ko, Song;Kim, Dae-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.2
    • /
    • pp.109-121
    • /
    • 2009
  • Although a prior knowledge is a factor to improve the clustering performance, it is dependant on how to use of them. Especial1y, when the prior knowledge is employed in constructing initial centroids of cluster groups, there should be concerned of similarities of a prior knowledge. Despite labels of some objects of a prior knowledge are identical, the objects whose similarities are low should be separated. By separating them, centroids of initial group were not fallen in a problem which is collision of objects with low similarities. There can use the separated prior knowledge by various methods such as various initializations. To apply association rule, proposed method makes enough cluster group number, then the centroids of initial groups could constructed by separated prior knowledge. Then ensemble of the various results outperforms what can not be separated.

Improved Fuzzy Clusteirng (개선된 퍼지 클러스터링)

  • Kim Sung-Suk;Kim Sung-Soo;Ryu Jeong-Woong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.1
    • /
    • pp.6-11
    • /
    • 2005
  • In this paper, we propose a new fuzzy clustering scheme that optimizes the initial structure and the parameters to improve the performance of a intelligent systems. The proposed method keeps the good properties of clustering, and improves the total systems' performance at the same time, Especially, the proposed algorithm not only keeps robust to change threshold value in the optimization process, but also improves the performance of a system through the process of the self-organizing and the converging intelligent systems in its structure of cluster. In experiments, the superiority of the proposed scheme is presented by comparing its performance with other methods.

High-Dimensional Clustering Technique using Incremental Projection (점진적 프로젝션을 이용한 고차원 글러스터링 기법)

  • Lee, Hye-Myung;Park, Young-Bae
    • Journal of KIISE:Databases
    • /
    • v.28 no.4
    • /
    • pp.568-576
    • /
    • 2001
  • Most of clustering algorithms data to degenerate rapidly on high dimensional spaces. Moreover, high dimensional data often contain a significant a significant of noise. which causes additional ineffectiveness of algorithms. Therefore it is necessary to develop algorithms adapted to the structure and characteristics of the high dimensional data. In this paper, we propose a clustering algorithms CLIP using the projection The CLIP is designed to overcome efficiency and/or effectiveness problems on high dimensional clustering and it is the is based on clustering on each one dimensional subspace but we use the incremental projection to recover high dimensional cluster and to reduce the computational cost significantly at time To evaluate the performance of CLIP we demonstrate is efficiency and effectiveness through a series of experiments on synthetic data sets.

  • PDF

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

A Layer-based Dynamic Unequal Clustering Method in Large Scale Wireless Sensor Networks (대규모 무선 센서 네트워크에서 계층 기반의 동적 불균형 클러스터링 기법)

  • Kim, Jin-Su
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.13 no.12
    • /
    • pp.6081-6088
    • /
    • 2012
  • An unequal clustering method in wireless sensor networks is the technique that forms the cluster of different size. This method decreases whole energy consumption by solving the hot spot problem. In this paper, I propose a layer-based dynamic unequal clustering using the unequal clustering model. This method decreases whole energy consumption and maintain that equally using optimal cluster's number and cluster head position. I also show that proposed method is better than previous clustering method at the point of network lifetime.

Effective Clustering Method for High-Dimensional Indexes (고차원 색인을 위한 효과적 클러스터링 기법)

  • 신봉근;곽태영;최승락;이윤준;김명호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.247-249
    • /
    • 1998
  • 최근 들어 내용기반의 이미지 검색을 지원하기 위한 방법으로, 특징 벡터를 이용한 유사 질의 연구가 활발히 진행되고 있다. 이러한 유사 질의를 효율적으로 지원하기 위해서는 고차원 공간상에 존재하는 점 데이터나 공간 데이터를 효과적으로 색인할 수 있는 색인 기법이 필요하다. 하지만 R*-트리를 바탕으로 하는 기존의 방법들은 고차원 데이터에 대해서 차원의 증가함에 따라 검색 시간이 급격하게 증가하는 문제점을 안고 있다. 이러한 문제는 데이터의 클러스터링에 기반을 둔 기존의 방법들이 차원이 증가함에 따라 데이터를 제대로 클러스터링하지 못하기 때문에 발생하며, 따라서 이를 해결하기 위해서는 효과적인 클러스터링 기법이 필요하다. 본 논문에서는 하나의 최소 한계 영역(minimum bounding region)에 속하는 개체들의 응집 정도와 최소 한계 영역들간의 결합 정도를 고려하여 효과적으로 클러스터링하는 방안을 제안한다. 또한 이러한 클러스터링 기법을 수용하기 위한 색인 기법을 간략히 제시한다

A new Clustering Algorithm for GPS Trajectories with Maximum Overlap Interval (최대 중첩구간을 이용한 새로운 GPS 궤적 클러스터링)

  • Kim, Taeyong;Park, Bokuk;Park, Jinkwan;Cho, Hwan-Gue
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.9
    • /
    • pp.419-425
    • /
    • 2016
  • In navigator systems, keeping map data up-to-date is an important task. Manual update involves a substantial cost and it is difficult to achieve immediate reflection of changes with manual updates. In this paper, we present a method for trajectory-center extraction, which is essential for automatic road map generation with GPS data. Though clustered trajectories are necessary to extract the center road, real trajectories are not clustered. To address this problem, this paper proposes a new method using the maximum overlapping interval and trajectory clustering. Finally, we apply the Virtual Running method to extract the center road from the clustered trajectories. We conducted experiments on real massive taxi GPS data sets collected throughout Gang-Nam-Gu, Sung-Nam city and all parts of Seoul city. Experimental results showed that our method is stable and efficient for extracting the center trajectory of real roads.