• Title/Summary/Keyword: 클러스터링 문제

Search Result 429, Processing Time 0.024 seconds

A Method of Descriptor Extraction for Automatic Document Clustering (자동 문서 클러스터링을 위한 디스크립터 추출 방안)

  • Yun, Bo-Hyun;Kang, Hyun-Kyu;Ko, Hyung-Dae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.230-233
    • /
    • 2000
  • 기존의 검색엔진은 검색결과를 적합도 순서로 나열하여 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제의 해결책으로 검색결과 문서에 대해 자동 클러스터링을 수행하여 문서 내용이 유사한 문서가 하나의 클러스터내에 존재하도록 한다. 본 논문에서는 검색 결과 문서의 클러스터링에서 필요한 디스크립터 추출 방안을 제안한다. 각 클러스터 내에서 디스크립터를 추출하기 위해 정보검색의 색인과정에서 사용하는 용어 가중치 계산 방법을 이용한다.

  • PDF

A Cluster Group Head Selection using Trajectory Clustering Technique (궤적 클러스터링 기법을 이용한 클러스터 그룹 헤드 선정)

  • Kim, Jin-Su;Shin, Seung-Soo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.12
    • /
    • pp.5865-5872
    • /
    • 2011
  • Multi-hop communication in clustering system is the technique that forms the cluster to aggregate the sensing data and transmit them to base station through midway cluster head. Cluster head around base station send more packet than that of far from base station. Because of this hot spot problem occurs and cluster head around base station increases energy consumption. In this paper, I propose a cluster group head selection using trajectory clustering technique(CHST). CHST select cluster head and group head using trajectory clustering technique and fitness function and it increases the energy efficiency. Hot spot problem can be solved by selection of cluster group with multi layer and balanced energy consumption using it's fitness function. I also show that proposed CHST is better than previous clustering method at the point of network energy efficiency.

Problems in Fuzzy c-means and Its Possible Solutions (Fuzzy c-means의 문제점 및 해결 방안)

  • Heo, Gyeong-Yong;Seo, Jin-Seok;Lee, Im-Geun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.1
    • /
    • pp.39-46
    • /
    • 2011
  • Clustering is one of the well-known unsupervised learning methods, in which a data set is grouped into some number of homogeneous clusters. There are numerous clustering algorithms available and they have been used in various applications. Fuzzy c-means (FCM), the most well-known partitional clustering algorithm, was established in 1970's and still in use. However, there are some unsolved problems in FCM and variants of FCM are still under development. In this paper, the problems in FCM are first explained and the available solutions are investigated, which is aimed to give researchers some possible ways of future research. Most of the FCM variants try to solve the problems using domain knowledge specific to a given problem. However, in this paper, we try to give general solutions without using any domain knowledge. Although there are more things left than discovered, this paper may be a good starting point for researchers newly entered into a clustering area.

Topical Clustering of Documents using Helmholtz Machines with Competitive Units (Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링)

  • 장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF

Optimal k-search and Its Application in k-medoid Clustering Algorithm based on Genetic Algorithm (유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용)

  • Ahn Sun-Young;Yoon Hye-Sung;Lee Sang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.55-57
    • /
    • 2006
  • k-medoid 클러스터링 알고리즘은 고정된 클러스터 수(k)를 가지고 실험하기 때문에 데이터에 대한 사전 지식이 없으면 올바른 분석이 어렵고, 클러스터 수를 변경하면서 여러 번 반복 실험하여 실험 결과에 대한 타당성을 조사해야 하기 때문에 데이터의 크기가 커질수록 시간 비용이 증가하는 단점이 생긴다. 본 논문에서는 k-medoid 클러스터링 알고리즘 분석에 있어서 가장 어려운 문제 중 하나인 적절한 클러스터 수 k를 사회 네트워크 분석 방법 중 매개중심 값을 이용하여 찾는 새로운 방법을 제안하고 이를 실제 마이크로 어레이 데이터에 적용하여 유전자 알고리즘에 기반한 k-medoid 클러스터링을 수행함으로써 좀 더 정확한 클러스터링 결과를 보인다.

  • PDF

A Study on Efficient Design Pattern Classification Using Clustering Algorithms (클러스터링 알고리즘을 이용한 효율적인 디자인 패턴 분류에 관한 연구)

  • Choi, Young-Keon;Kim, Gui-Joung;Song, Young-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.453-456
    • /
    • 2001
  • 디자인 패턴은 시스템 설계시의 일반적인 문제들을 해결하기 위해 클래스를 조직화한 것이다. 본 연구는 디자인 패턴을 클러스터링 하기 위하여 클래스의 관계를 나타내는 구조를 이용한 패턴 클러스터링 알고리즘을 제안하였다. 제안한 디자인 패턴의 클러스터링은 패턴 저장 시 패턴 클러스터링에 의해 분류하고 링크정보를 이용하여 저장하므로 저장소를 효율적으로 관리 할 수 있으며 또한 재공학에 의해 추출된 클래스로 표현된 전체 시스템 구성도로부터 패턴의 사용정보를 추출하므로 시스템의 재설계시에 도움을 줄 수 있도록 하였다.

  • PDF

Hyper-ellipsoidal clustering algorithm using Linear Matrix Inequality (선형행렬 부등식을 이용한 타원형 클러스터링 알고리즘)

  • Lee, Han-Sung;Park, Joo-Young;Park, Dai-Hee
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.12 no.4
    • /
    • pp.300-305
    • /
    • 2002
  • In this paper, we use the modified gaussian kernel function as clustering distance measure and recast the given hyper-ellipsoidal clustering problem as the optimization problem that minimizes the volume of hyper-ellipsoidal clusters, respectively and solve this using EVP (eigen value problem) that is one of the LMI (linear matrix inequality) techniques.

Research Trends of Clustering Methods for Extracting Knowledge in Large Database (대규모 데이터베이스에서의 지식정보 추출을 위한 클러스터링 기법 연구동향)

  • Moon, B.J.;Jung, H.S.;Lee, D.I
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.6 s.60
    • /
    • pp.31-37
    • /
    • 1999
  • 정보검색시스템에서는 방대한 양의 데이터에서 보다 효율적이고, 보다 정확한 데이터를 어떻게 추출할 것인가가 항상 가장 중요한 문제로 인식되어 왔다. 특히, 앞으로 데이터베이스는 지식정보를 담는 대규모 데이터베이스가 되므로 이러한 문제를 해결하기 위한 방법은 갈수록 복잡해 질 것이다. 현재 이의 해법으로 데이터마이닝에 대한 연구가 활발하게 진전되고 있으며, 특히 문서의 연관관계를 정의해 주는 클러스터링은 향후 지식발견의 가장 중요한 요소가 될 것으로 보인다. 따라서, 본 논문은 대규모 데이터베이스에서 지식정보 발견에 관한 기법에 대한 최근의 연구동향을 소개한다. 즉, 이용자 질의에 대한 검색 결과를 개선하기 위한 방편인 데이터마이닝 기법의 기본개념과 데이터마이닝 기법 중에서도 최근 가장 빠르게 실용화가 이루어지고 있는 클러스터링에 대한 최근의 동향을 살펴본다.

A Study on Optimization for Delivery Destination Clustering using Unsupervised Learning (비지도 학습 기반 클러스터링 기법을 활용한 도심 물류 배송지 최적화 연구)

  • Jeon, Hyungjun;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.483-486
    • /
    • 2022
  • 최근 이커머스 시장의 지속적인 성장으로 빠른 배송과 대용량 물류 처리를 위한 효율적 배송 시스템 마련의 필요성이 증가하고 있다. 본 연구에서는 도심 물류 거점에서의 현재 배송 물량 할당의 불균등 문제를 실무적 관점에서 정의하고, 비지도 학습 기반 클러스터링 기법을 통해 불균등 배송 할당 문제를 개선해 보고자 했다. 분석 결과 K-means++ 알고리즘 기반 클러스터링에서 최적화된 물량 할당에 대한 개선 가능성을 검증할 수 있었다. 향후 지형 정보, 교통량 등의 상세 변수를 추가하여 머신러닝 기반의 물류 배송 최적화를 위한 연구 영역을 확장할 수 있을 것으로 기대된다.

An Energy Efficient Unequal Clustering Algorithm for Wireless Sensor Networks (무선 센서 네트워크에서의 에너지 효율적인 불균형 클러스터링 알고리즘)

  • Lee, Sung-Ju;Kim, Sung-Chun
    • The KIPS Transactions:PartC
    • /
    • v.16C no.6
    • /
    • pp.783-790
    • /
    • 2009
  • The necessity of wireless sensor networks is increasing in the recent years. So many researches are studied in wireless sensor networks. The clustering algorithm provides an effective way to prolong the lifetime of the wireless sensor networks. The one-hop routing of LEACH algorithm is an inefficient way in the energy consumption of cluster-head, because it transmits a data to the BS(Base Station) with one-hop. On the other hand, other clustering algorithms transmit data to the BS with multi-hop, because the multi-hop transmission is an effective way. But the multi-hop routing of other clustering algorithms which transmits data to BS with multi-hop have a data bottleneck state problem. The unequal clustering algorithm solved a data bottleneck state problem by increasing the routing path. Most of the unequal clustering algorithms partition the nodes into clusters of unequal size, and clusters closer to the BS have small-size the those farther away from the BS. However, the energy consumption of cluster-head in unequal clustering algorithm is more increased than other clustering algorithms. In the thesis, I propose an energy efficient unequal clustering algorithm which decreases the energy consumption of cluster-head and solves the data bottleneck state problem. The basic idea is divided a three part. First of all I provide that the election of appropriate cluster-head. Next, I offer that the decision of cluster-size which consider the distance from the BS, the energy state of node and the number of neighborhood node. Finally, I provide that the election of assistant node which the transmit function substituted for cluster-head. As a result, the energy consumption of cluster-head is minimized, and the energy consumption of total network is minimized.