• 제목/요약/키워드: Rand지수

검색결과 3건 처리시간 0.016초

K-평균 군집화의 재현성 평가 및 응용 (Reproducibility Assessment of K-Means Clustering and Applications)

  • 허명회;이용구
    • 응용통계연구
    • /
    • 제17권1호
    • /
    • pp.135-144
    • /
    • 2004
  • K-평균 군집화(K-means clustering)는 고객 세분화(customer segmentation) 등 데이터 마이닝에서 중요한 한 몫을 하는 비지도 학습방법 (unsupervised learning method)이다. K-평균 군집화가 재현성(reproducibility)이 있는가를 보기 위하여, 다수의 기존 연구에서는 관측 자료를 2개 셋으로 나눈 자료 분할(data partitioning) 방법이 활용되고 있다. 본 교신에서 우리는 이보다 개념적으로 명확한 새로운 자료 분할 방법을 제안한다. 이 방법은 관측 자료를 3개 셋으로 나누어 그 중 2개 자료 셋을 독립적인 군집화 규칙을 생성하는 데 사용하고 나머지 1개의 자료 셋을 규칙간 일치성을 테스트하는데 사용한다. 또한 2개의 군집화 규칙간 일치성 평가를 위한 지표로서 엔트로피 기준의 환용 방법을 제시한다.

고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교 (Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data)

  • 정윤경;백장선
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.167-181
    • /
    • 2007
  • 유전자 발현 자료(gene expression data)는 전형적인 고차원 자료이며, 이를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 군집타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이들 군집 타당성을 분석하는 기법의 성능에 대한 비교, 평가는 매우 드물다. 본 논문에서는 저차원의 모의실험 자료와 실제 유전자 발현 자료에 대하여 군집 타당성분석 기법들의 성능을 비교하였으며, 그 결과 내적 측도에서는 Dunn 지수, Silhouette 지수 순으로 뛰어났고 외적 측도에서는 Jaccard 지수가 성능이 가장 우수한 것으로 평가되었다.

가중표준편차를 이용한 비대칭 모집단에 대한 다변량 공정능력지수 (Multivariate Process Capability Indices for Skewed Populations with Weighted Standard Deviations)

  • 장영순;배도선
    • 대한산업공학회지
    • /
    • 제29권2호
    • /
    • pp.114-125
    • /
    • 2003
  • This paper proposes multivariate process capability indices (PCIs) for skewed populations using $T^2$rand modified process region approaches. The proposed methods are based on the multivariate version of a weighted standard deviation method which adjusts the variance-covariance matrix of quality characteristics and approximates the probability density function using several multivariate Journal distributions with the adjusted variance-covariance matrix. Performance of the proposed PCIs is investigated using Monte Carlo simulation, and finite sample properties of the estimators are studied by means of relative bias and mean square error.