• 제목/요약/키워드: Optimal Cluster Size

검색결과 38건 처리시간 0.022초

층화 2-단 표본 추출시 최적 집락의 크기 결정 (A Optimal Cluster Size in Stratified Two-Stage Cluster Sampling)

  • 신민웅;신기일
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.207-224
    • /
    • 2000
  • 모집단을 집략화하여 층화 2-단 표본 추출을 할 때에 일반적으로 집락의 크기는 정해져 있다. 그러나 집락이 아파트 단지 등과 같은 경우에 집락의 크기는 큰 차이를 보인다. 이 경우 집락을 합치거나 또는 분할할 필요가 생긴다. 대 표본조사(large sample survey)에서 행정상 또는 조사 편의상 동질의 원소들이 집락화 되어 있고 집락의 크기를 결정할 필요가 있을 경우가 고려되었으며 본 논문에서는 집락의 최적크기를 결정하는 문제를 다루었다. 또한 주어진 비용 하에서 최적의 일차 추출 단위 수와 최적의 이차 추출 단위 수를 구하였다.

  • PDF

A Hybrid Genetic Algorithm for K-Means Clustering

  • Jun, Sung-Hae;Han, Jin-Woo;Park, Minjae;Oh, Kyung-Whan
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.330-333
    • /
    • 2003
  • Initial cluster size for clustering of partitioning methods is very important to the clustering result. In K-means algorithm, the result of cluster analysis becomes different with optimal cluster size K. Usually, the initial cluster size is determined by prior and subjective information. Sometimes this may not be optimal. Now, more objective method is needed to solve this problem. In our research, we propose a hybrid genetic algorithm, a tree induction based evolution algorithm, for determination of optimal cluster size. Initial population of this algorithm is determined by the number of terminal nodes of tree induction. From the initial population based on decision tree, our optimal cluster size is generated. The fitness function of ours is defined an inverse of dissimilarity measure. And the bagging approach is used for saying computational time cost.

  • PDF

붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정 (Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm)

  • 박민재;전성해;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.12-17
    • /
    • 2003
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다

The Impact of Network Coding Cluster Size on Approximate Decoding Performance

  • Kwon, Minhae;Park, Hyunggon
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권3호
    • /
    • pp.1144-1158
    • /
    • 2016
  • In this paper, delay-constrained data transmission is considered over error-prone networks. Network coding is deployed for efficient information exchange, and an approximate decoding approach is deployed to overcome potential all-or-nothing problems. Our focus is on determining the cluster size and its impact on approximate decoding performance. Decoding performance is quantified, and we show that performance is determined only by the number of packets. Moreover, the fundamental tradeoff between approximate decoding performance and data transfer rate improvement is analyzed; as the cluster size increases, the data transfer rate improves and decoding performance is degraded. This tradeoff can lead to an optimal cluster size of network coding-based networks that achieves the target decoding performance of applications. A set of experiment results confirms the analysis.

이단계 집락추출에서의 표본크기에 대한 연구 (A Study of Sample Size for Two-Stage Cluster Sampling)

  • 송종호;제해성;박민규
    • 응용통계연구
    • /
    • 제24권2호
    • /
    • pp.393-400
    • /
    • 2011
  • 조사비용과 시간과 같은 현실적인 제약하에서 관측단위 (observation unit)의 집합인 집락(cluster)율 추출하는 집락추출법은 대부분의 대형조사(large scale survey) 에서 흔히 사용된다. 특별히 집락내의 관측단위가 매우 유사한 경우, 집락 내의 모든 관측치를 조사하는 대신 일부를 추출하여 조사하는 이단계 집락 추출법이 선호된다. 이단계 집락추출법의 적용시 집락인 1차추출단위 (Primary Sampling Unit; PSU)와 관측단위인 2차추출단위(Secondary Sampling Unit; SSU)의 표본수 결정은 주어진 비용과 표본으로부터 계산되어지는 통계량의 정도에 의존한다. 본 연구에서는 기존의 1차추출단위의 크기가 동일하다는 가정하에서 유도된 최적 PSU와 SSU 표본크기 산출과정을 일반화하여 1차추출단위의 크기가 같지 않을 경우의 최적 표본크기를 유도하고 그 결과를 제 4차 퇴원환자조사를 위한 표본추출 방안에 적용하여 기존방법과 비교하였으며 이를 바탕으로 제 7차 퇴원환자조사를 위한 표본크기를 제안하였다.

Optimal Allocations in Two-Stage Cluster Sampling

  • Koh, Bong-Sung
    • Communications for Statistical Applications and Methods
    • /
    • 제6권3호
    • /
    • pp.749-754
    • /
    • 1999
  • The cost is known to be proportional to the size of sample. We consider a cost function of the form Cost=c1np+c2npmq where c1, c2 p, and q are all positive constants. This cost function is to be used in finding an optimal allocation in two-stage cluster sampling. The optimal allocations of n and m gives the properties of uniqueness under some conditions and of monotonicity with p>0 when q=1.

  • PDF

Optimizing the maximum reported cluster size for normal-based spatial scan statistics

  • Yoo, Haerin;Jung, Inkyung
    • Communications for Statistical Applications and Methods
    • /
    • 제25권4호
    • /
    • pp.373-383
    • /
    • 2018
  • The spatial scan statistic is a widely used method to detect spatial clusters. The method imposes a large number of scanning windows with pre-defined shapes and varying sizes on the entire study region. The likelihood ratio test statistic comparing inside versus outside each window is then calculated and the window with the maximum value of test statistic becomes the most likely cluster. The results of cluster detection respond sensitively to the shape and the maximum size of scanning windows. The shape of scanning window has been extensively studied; however, there has been relatively little attention on the maximum scanning window size (MSWS) or maximum reported cluster size (MRCS). The Gini coefficient has recently been proposed by Han et al. (International Journal of Health Geographics, 15, 27, 2016) as a powerful tool to determine the optimal value of MRCS for the Poisson-based spatial scan statistic. In this paper, we apply the Gini coefficient to normal-based spatial scan statistics. Through a simulation study, we evaluate the performance of the proposed method. We illustrate the method using a real data example of female colorectal cancer incidence rates in South Korea for the year 2009.

대규모 무선 센서 네트워크에서 계층 기반의 동적 불균형 클러스터링 기법 (A Layer-based Dynamic Unequal Clustering Method in Large Scale Wireless Sensor Networks)

  • 김진수
    • 한국산학기술학회논문지
    • /
    • 제13권12호
    • /
    • pp.6081-6088
    • /
    • 2012
  • 불균형 클러스터링은 클러스터의 크기를 서로 다른 크기로 나누는 방법으로 균형 클러스터링에 비해 핫스팟 문제를 어느 정도 해결할 수 있으므로 전체 네트워크의 에너지 소모량을 줄인다. 본 논문에서는 불균형 클러스터링 모델을 이용하여 계층 기반의 동적 불균형 클러스터링을 제안한다. 이는 라운드별로 최적의 클러스터 수 및 클러스터 헤드 위치를 제공함으로써 전체 네트워크에 대한 에너지 소모를 균형 있게 하고 또한 네트워크 수명을 연장시킨다. 실험을 통하여 제안된 기법이 이전 클러스터링 기법보다 네트워크 수명이 연장되었음을 보였다.

Traffic based Estimation of Optimal Number of Super-peers in Clustered P2P Environments

  • Kim, Ju-Gyun;Lee, Jun-Soo
    • 한국멀티미디어학회논문지
    • /
    • 제11권12호
    • /
    • pp.1706-1715
    • /
    • 2008
  • In a super-peer based P2P network, the network is clustered and each cluster is managed by a special peer, which is called a super-peer. A Super-peer has information of all the peers in its cluster. This type of clustered P2P model is known to have efficient information search and less traffic load than unclustered P2P model. In this paper, we compute the message traffic cost incurred by peers' query, join and update actions within a cluster as well as between the clusters. With these values, we estimate the optimal number of super-peers that minimizes the traffic cost for the various size of super-peer based P2P networks.

  • PDF

산업제품의 표준치 설정을 위한 체형특성의 인간공학적 연구 (An Analysis of Body Feature to the Optimal Size of Industrial Products)

  • 유병철;이상도
    • 산업경영시스템학회지
    • /
    • 제22권49호
    • /
    • pp.11-21
    • /
    • 1999
  • The purpose of this study is to present the method to select optimal size for the industrial products which are closely related to human's body size. For this purpose, human factors such as body characteristics, body features, and preference in product selection which needs to be considered in setting standards were analyzed. This analysis is to select optimal size to minimize losses caused by the difference of size between demand by the customers and supply from the manufacturers. Using loss function, repetitive calculation process algorithm by using bisearch method was applied in selecting the sizes of demand and supply which minimize the total expected losses. For cumulative normal distribution probability, IMSL routine DNORDF was used. In case study, comparison has been made between the result which was calculated using presented algorithm and the results calculated by the process currently used by KS and ISO by measuring aged women's body size in human factors side and sorting them through the factor analysis and cluster analysis for feature factor extraction. Thus, they can be used as a basis for establishing industrial product standards.