• 제목/요약/키워드: K-means방법

검색결과 2,402건 처리시간 0.026초

클러스터 중심 결정 방법을 개선한 K-Means 알고리즘의 구현 (An Implementation of K-Means Algorithm Improving Cluster Centroids Decision Methodologies)

  • 이신원;오형진;안동언;정성종
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.867-874
    • /
    • 2004
  • K-Means 알고리즘은 재배치 기법의 일종으로 K개의 초기 센트로이드를 중심으로 K개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. 알고리즘의 특성상 K-Means 알고리즘은 초기 클러스터 센트로이드(중심) 및 클러스터 중심을 결정하는 방법에 따라 다른 클러스터링 결과를 얻을 수 있다. 본 논문에서는 K-Means 알고리즘을 이용한 초기 클러스터 중심 및 클러스터 중심을 결정하는 방법을 개선한 변형 K-Means 알고리즘을 제안한다. 제안한 알고리즘의 평가를 위하여 SMART 시스템의 16가지 가중치 계산 방식을 이용하여 성능을 평가한 결과 변형 K-Means알고리즘이 K-Means 알고리즘보다 재현률과 F-Measure에서 $20{\%}$이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 관련 문서가 할당되는 클러스터링 성능이 우수함을 알 수 있었다.

스케일 성질을 이용한 군집 지역에서의 스케일 인자에 대한 연구 (Study on Scaling Exponent for Classification of Regions using Scaling Property)

  • 정영훈;김성훈;안현준;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.504-504
    • /
    • 2015
  • 수공구조물을 설계하기 위해서는 설계수문량을 빈도해석을 통해 산정할 수 있다. 빈도해석 중 지점빈도해석을 보완한 지역빈도해석을 적용하기 위해서는 군집분석을 통한 지역구분이 무엇보다 중요하다. 또한 스케일 성질(scaling property)은 강우의 시 공간적 특성을 지속기간별 관측된 강우자료를 이용하여 재현기간에 대한 지속기간의 함수로 강우의 IDF곡선을 제시할 수 있는 방법이다. 따라서 스케일 성질을 통해 군집된 지역에서의 강우자료에 적용하여 스케일 인자(scaling exponent)를 추정한 후 수문학적 동질성을 통계적 특성으로 설명하고자 한다. 본 연구를 수행하기에 앞서 군집 분석은 4개의 군집방법(평균연결법, Ward방법, Two-Step방법, K-means방법)을 적용하였고, 한강유역에 위치한 104개의 강우지점은 4개의 지역으로 구분하는 것이 적절하다고 판단되어 비계층적 방법인 k-means방법을 이용하여 지역을 구분하였다. 본 연구에서는 군집된 결과를 바탕으로 4개의 지역으로 구분된 지역에 포함된 강우지점을 대상으로 스케일 인자를 추정하고 수문학적 동질성을 통계적 방법으로 제시하고자 한다.

  • PDF

X-means 확장을 통한 효율적인 집단 개수의 결정 (Extensions of X-means with Efficient Learning the Number of Clusters)

  • 허경용;우영운
    • 한국정보통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.772-780
    • /
    • 2008
  • K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

DNA칩 데이터 분석을 위한 유전자발연 통합분석 프로그램의 개발 (Program Development of Integrated Expression Profile Analysis System for DNA Chip Data Analysis)

  • 양영렬;허철구
    • KSBB Journal
    • /
    • 제16권4호
    • /
    • pp.381-388
    • /
    • 2001
  • DNA칩의 유전자 발현 데이터의 통합적 분석을 위하여 매트랩을 기반으로 한 통합분석 프로그램을 구축하였다. 이 프로그램은 유전자 발현 분석을 위해 일반적으로 많이 쓰는 방법인 Hierarchical clustering(HC), K-means, Self-organizing map(SOM), Principal component analysis(PCA)를 지원하며, 이외에 Fuzzy c-means방법과 최근에 발표된 Singular value decomposition(SVD) 분석 방법도 지원하고 있다. 통합분석프로그램의 성능을 알아보기 위하여 효모의 포자형성(sporulation)과 정의 유전자발현 데이터를 사용하였으며, 각 분석 방법에 따른 분석 결과를 제시하였으며, 이 프로그램이 유전자 발현데이타의 통합적인 분석을 위해 효과적으로 사용될 수 있음을 제시하였다.

  • PDF

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

K-Means 클러스터링에서 초기 중심 선정 방법 비교 (Comparison of Initial Seeds Methods for K-Means Clustering)

  • 이신원
    • 인터넷정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.1-8
    • /
    • 2012
  • 클러스터링 기법은 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화 하는 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 또한 초기 클러스터 중심이 임의로 설정되기 때문에 클러스터링 결과가 편차가 심하다. 본 논문에서는 클러스터링에 소요되는 시간을 줄이고 안정적인 클러스터링을 하기 위해 초기 클러스터 중심 선정 방법을 삼각형 높이를 이용하는 방법을 제안하고 비교 실험해 봄으로서 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다. 실험결과로 평균 총소요시간을 보면 최대평균거리를 이용하는 방법은 기존 방법에 비해서 17.9% 감소하였고, 제안한 방법은 38.4% 감소하였다.

클러스터 중심 결정 방법을 개선한 K-Means Algorithm의 구현 (An Implementation of K-Means Algorithm improving cluster centroids decision methodologies)

  • 조시성;김호영;오형진;이신원;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.373-376
    • /
    • 2002
  • K-Means 알고리즘은 재배치 기법의 일종으로 K 개의 초기 클러스터중심(centroid)를 중심으로 K 개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. K-Means 알고리즘은 특성상 초기 클러스터 중심과 새롭게 생성된 클러스터 중심에 따라 클러스터링 결과가 달라진다. 본 논문에서는 K-Means Algorithm 의 초기 클러스터중심 선택 방법과 새로운 클러스터 중심 결정 방법을 개선한 변형 K-Means Algorithm을 제안한다. SMART 시스템에서 제안한 16가지 가중치 계산 방식에 의하여 두 알고리즘의 성능을 평가한 결과 제안한 변형 알고리즘이 재현률과 F-Measure 에서 20%이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 문서가 할당되는 클러스터링 성능이 우수하였다.

  • PDF

마이크로 어레이 데이터에 적용된 2단계 K-means 클러스터링의 소개 (An Introduction of Two-Step K-means Clustering Applied to Microarray Data)

  • 박대훈;김연태;김성신;이춘환
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.167-172
    • /
    • 2007
  • 많은 유전자 정보와 그 부산물은 많은 방법을 통해 연구되어 왔다. DNA 마이크로어레이 기술의 사용은 많은 데이터를 가져왔으며, 이렇게 얻은 데이터는 기존의 연구 방법으로는 분석하기 힘들다. 본 논문에서는 많은 양의 데이터를 처리할 수 있게 하기 위하여 K-means 클러스터링 알고리즘을 이용한 분할 클러스터링을 제안하였다. 제안한 방법을 쌀 유전자로부터 나온 마이크로어레이 데이터에 적용함으로써 제안된 클러스터링 방법의 유용성을 검증하였으며, 기존의 K-means 클러스터링 알고리즘을 적용한 결과와 비교함으로써 제안된 알고리즘의 우수성을 확인할 수 있었다.

수정된 미소분리 방법에 의한 초기 부호책 설계 (Initial Codebook Design by Modified splitting Method)

  • 조제황
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.69-72
    • /
    • 2002
  • 부호책 설계에 사용되는 초기 부호책을 얻기 위해 수정된 미소분리 방법을 제안한다. 제안된 방법은 다른 클래스에 비해 소속되는 학습벡터가 다수 소속되거나 자승오차가 작은 클래스에 대표벡터를 더 많이 할당한다는 원리를 적용한다. 기존 K-means 알고리즘과 참고문헌 (5)에서 제안한 방법을 적용하여 설계된 부호책의 성능을 평가할 때, 두 경우 모두 제안된 방법에 의해 얻어진 초기 부호책을 사용하는 것이 기존 미소분리 방법에 의한 초기 부호책을 사용하는 것보다 우수한 결과를 나타낸다.

4 방향 윤곽선 추적과 K-Means 알고리즘을 이용한 색조 도플러 초음파 영상에서 상환 동맥의 혈류 영역 추출 (Extraction of Blood Flow of Brachial Artery on Color Doppler Ultrasonography by Using 4-Directional Contour Tracking and K-Means Algorithm)

  • 박준성;김광백
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1411-1416
    • /
    • 2020
  • 본 논문에서는 색조 도플러 초음파 영상에서 K-Means 알고리즘을 적용하여 혈류 영역을 추출하는 방법을 제안한다. 제안된 방법에서는 ROI 영역을 추출하고, 추출된 ROI 영역에서 최대 명암도를 임계치로 설정한 이진화 기법을 적용하여 ROI 영역을 이진화한다. 이진화된 ROI 영역에서 4 방향 윤곽선 추적 기법을 적용하여 상완 동맥의 혈류 영역이 존재하는 사다리꼴 형태의 영역을 추출한다. 추출된 사다리꼴 형태의 영역에서 상완동맥의 혈류영역을 정확히 추출하기 위하여 K-Means 기반 양자화 기법을 적용한다. 실험에서 제안 된 방법은 현장 전문가의 검증을 거쳐 30건 중 28건 (93.3%)에서 혈류 영역을 성공적으로 추출하였다. 그리고 제안된 K-Means 기반 혈류 영역 추출 방법을 30개의 색조 도플러 초음파 영상에 적용하여 전문의가 제공한 상완동맥 혈류 영역과 제안된 방법을 비교 분석한 결과, 정확도가 평균적으로 94.27%로 나타났다.