• 제목/요약/키워드: K-means방법

검색결과 2,402건 처리시간 0.029초

Dunn 지수를 이용한 최적 강수지역 군집수 분석 (The Analysis of Optimal Cluster Number of Precipitation Region with Dunn Index)

  • 엄명진;정창삼;남우성;정영훈;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.87-91
    • /
    • 2011
  • 강수는 지역에 따라 발생양상이 매우 다른 자연현상 중 하나이다. 이러한 강수를 효과적으로 분석하여 확률강수량을 산정하기위해서 수문학에서는 다양한 방법이 시도되어 왔다. 우리나라에서는 지점빈도해석을 통한 확률강수량을 주로 사용해왔으나 최근 들어 Hosking and Wallis(1997)가 제안한 지역빈도해석을 활용을 적극 도모 하고 있는 중이다. 이러한 지역빈도해석 기법은 지점빈도해석 기법에 비하여 한정된 강수자료를 활용하는 측면 등 여러 가지 장점을 가진 확률 강수량 산정방법이다. 그러나 이 기법을 적용하여 확률강수량을 산정하기 위해서는 강수의 지역구분을 먼저 수행하여야 한다. 강수지역의 구분을 위해서는 여러 가지 기법이 존재하나 최근에는 Cluster 기법 중 K-means 방법이나 Fuzzy c-means 방법 등을 주로 적용하여 지역구분을 수행하고 있다. 그러나 K-means 방법이나 Fuzzy c-means 방법 등은 산정 방법내에서 최적 군집수를 결정할 수 있는 알고리즘이 없기 때문에 임의적으로 최적 군집수를 결정하여야 한다. 본 연구에서는 이러한 단점을 극복하기 위하여 Cluster 평가지수 중 하나인 Dunn 지수를 이용하여 최적 군집수를 제시하고자 한다. 본 연구에서 강수지역을 구분하기 위하여 적용한 인자는 월 평균 강수량, 연 평균 강수량, 월 최대 강수량, 경도, 위도, 고도 등이며, 이를 K-means, PAM 및 친근도 전파 기법을 통하여 강수지역을 구분하였다. 적정 군집수를 임의적으로 증가시켜 가면서 Dunn 지수를 산정하였다. 산정된 결과를 통하여 최적 군집수를 결정하였다.

  • PDF

초기 반복학습 시 수렴영역을 벗어난 가중치에 의한 K-means 알고리즘 (K-means Algorithm in outside weight region of convergence for initial iteration learning)

  • 박소희;조제황
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.143-146
    • /
    • 2001
  • 본 논문에서는 랜덤초기화 방법을 사용하여 초기 코드북을 생성하고, 이를 이용하여 초기 반복학습 시 수렴영역을 벗어난 2 이상의 가중치에 의한 K-means 알고리즘을 제안한다. 기존의 K-means 알고리즘이 국부적으로 최적화되고 초기 반복학습 시에 가중치의 영향이 크다는 점을 이용하여, 제안된 방법에서는 초기 반복학습 시의 가중치를 수렴영역에서 벗어난 큰 값으로 주고 이후 반복학습시의 가증치는 수렴영역 안에 있는 값으로 고정하여 코드북을 설계한다. 또한 초기 코드북을 얻기 위해 Splitting 방법과 같은 추가적인 과정 없이 랜덤한 방법에 의한 초기 코드북을 적용함으로써 제안된 알고리즘이 단순한 구조를 가지며, 구해진 코드북의 성능도 우수함을 확인할 수 있었다.

  • PDF

차감 및 중력 fuzzy C-means 클러스터링을 이용한 칼라 영상 분할에 관한 연구 (Segmentation of Color Image by Subtractive and Gravity Fuzzy C-means Clustering)

  • 진영근;김태균
    • 전기전자학회논문지
    • /
    • 제1권1호
    • /
    • pp.93-100
    • /
    • 1997
  • 칼라 영상 분할의 한 방법으로 fuzzy C-means를 이용한 방법이 많이 연구되었으나, 이 방법은 클러스터의 개수가 정해져야 사용할 수 있는 방법이다. 분할해야 할 데이터가 많은 경우 예비 분할을 수행하여 예비 분할 되지 않는 데이터들에 대해서 상세 분할을 fuzzy C-means를 사용하여 분할 하나 예비 분할된 데이터의 클러스터 중심과 상세 분할로 만들어진 클러스터의 중심과는 연계성이 없어진다. 본 연구에서는 이것을 보완하기 위하여 차감 클러스터링을 사용하여 칼라 영상의 클러스터의 개수와 중심을 구한 후, 이것을 이용하여 영상을 예비 분할하고 중력을 가진 fuzzy C-means를 사용하여 분할되지 않은 나머지 부분과 클러스터의 중심을 최적화 시켜 분할하는 알고리듬을 제안한다. 제안된 방법의 정성적인 평가를 수행하여 본 논문에서 제시된 방법이 우수함을 보인다.

  • PDF

빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 연구 (A Study on Initial Seeds Selection of K-Means for Big Data Clustering)

  • 김영주;허유경;백종상;정환종;이성로;정민아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.750-752
    • /
    • 2014
  • K-Means 알고리즘은 구현이 쉽고, 패턴수가 n일 때 시간 복잡도가 O(n)인 장점을 가져 대용량 데이터에서 널리 이용된다. 그러나, K-Means 알고리즘은 초기 클러스터 중심을 어떻게 선정하는가에 따라 할당-재계산 횟수, 클러스터링 결과를 결정짓는다. 본 논문에서는 K-Means 알고리즘에서 클러스터 초기 중심 선정 연구를 살펴보고 계통임의추출법을 적용하여 K-Means 초기 중심 선정 방법을 제안한다. 제안한 방법은 대용량 데이터의 클러스터링 시간을 감소하고 정확도를 향상시킬 수 있다.

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화 (K-means clustering using a center of gravity for grid-based sample)

  • 이선명;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.121-128
    • /
    • 2010
  • 케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

K-means와 Sobel-mask 윤곽선 검출 기법을 이용한 미세먼지 측정 방법 (A Fine Dust Measurement Technique using K-means and Sobel-mask Edge Detection Method)

  • 이원형;서주완;김기연;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.97-101
    • /
    • 2022
  • 본 논문에서는 CCTV를 활용하여 K-means, Sobel-mask 기반의 윤곽선 검출 기법을 이용한 영상 속 미세먼지 측정 방법을 제안한다. 제안하는 알고리즘은 CCTV 카메라를 이용하여 이미지를 수집하고 관심영역을 통해 이미지 범위를 지정한다. K-means 알고리즘을 적용하여 군집화가 완료되면 Sobel-mask를 통해 윤곽선을 검출하고 윤곽선 강도를 측정하며, 측정된 데이터를 바탕으로 미세먼지의 농도를 파악한다. 제안하는 방법은 대각선 측정에 장점을 가지는 Sobel-mask의 특성을 활용하여 산맥의 윤곽선을 추출하고 실험 결과로 미세먼지 농도에 따른 검출의 차이를 보여준다.

Possibilistic Fuzzy C-Means 클러스터링 알고리즘의 확장 (Extension of the Possibilistic Fuzzy C-Means Clustering Algorithm)

  • 허경용;우영운;김광백
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.423-426
    • /
    • 2007
  • 클러스터링은 주어진 데이터 포인트들을 주어진 개수의 그룹으로 나누는 비지도 학습의 한 방법이다. 클러스터링의 방법 중 하나로 널리 알려진 퍼지 클러스터링은 하나의 포인트가 모든 클러스터에 서로 다른 정도로 소속될 수 있도록 함으로써 각 포인트가 하나의 클러스터에만 속할 수 있도록 하는 K-means와 같은 방법에 비해 자연스러운 클러스터 형태의 유추가 가능하고, 잡음에 강한 장점이 있다. 이 논문에서는 기존의 퍼지 클러스터링 방법 중 소속도(membership)와 전형성(typicality)을 동시에 계산해 낼 수 있는 Possibilistic Fuzzy C-Means (PFCM) 방법에 Gath-Geva (GG)의 방법 을 적용하여 PFCM을 확장한다. 제안한 방법은 PFCM의 장점을 그대로 가지면서도, GG의 거리 척도에 의해 클러스터들 사이의 경계를 강조함으로써 분류 목적에 적합한 소속도를 계산할 수 있으며, 전형성은 가우스 형태의 분포에서 생성된 포인트들의 분포 함수를 정확하게 모사함으로써 확률 밀도 추정의 방법으로도 사용될 수 있다. 또한 GG 방법은 Gustafson-Kessel 방법과 달리 클러스터에 포함된 포인트의 개수가 확연히 차이 나는 경우에도 정확한 결과를 얻을 수 있다는 사실을 실험 결과를 통해 확인할 수 있었다.

  • PDF

Regularization을 이용한 Possibilistic Fuzzy C-means의 확장 (An Extension of Possibilistic Fuzzy C-means using Regularization)

  • 허경용;남궁영환;김성훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.43-50
    • /
    • 2010
  • Fuzzy c-means(FCM)와 possibilistic c-means(PCM)는 퍼지 클러스터링 영역에서 대표적인 두 가지 방법으로 많은 패턴 인식 문제들에 성공적으로 활용되어져 왔다. 하지만 이들 방법 역시 잡음 민감성과 중첩 클러스터 문제를 가지고 있다. 이들 문제점을 극복하기 위해, 최근 두 방법을 결합하려는 시도가 있어왔고, possibilistic fuzzy c-means(PFCM)는 FCM과 PCM을 목적 함수 단계에서 통합함으로써 두 방법이 가지는 문제점을 완화시키는 성공적인 결과를 보여주었다. 이 논문에서는 PFCM에 regularization을 도입함으로써 PFCM의 잡음 민감성을 한층 더 줄여줄 수 있는 향상된 PFCM을 소개한다. Regularization은 해공간을 평탄화 함으로써 잡음의 영향을 줄이는 대표적인 방법 중 하나이다. 제안한 방법은 PFCM의 장점과 더불어 regularization에 의해 잡음의 영향을 더욱 줄일 수 있으며, 이는 실험을 통해 확인할 수 있다.

새로운 초기치 선정 방법을 이용한 향상된 EM 알고리즘 (Improved Expectation and Maximization via a New Method for Initial Values)

  • 김성수;강지혜
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.416-426
    • /
    • 2003
  • 본 논문은 시스템 공학의 인식에 관련된 여러 분야에서 널리 쓰이는 클러스터링 기법인 Expectation-Maximization의 초기값 설정문제에 관하여 새로운 방법을 제안한다. 기존의 임의로 지정하는 랜덤한 초기치 선정 문제점을 지적하고, 새로이 제안하는 균등 영역 분할과 분할 된 데이터의 통계적 특성을 이용한 초기치 설정 방법을 사용한 새로운 EM 알고리즘을 제안한다. 일반적으로 EM에서 초기값 설정 방법으로 랜덤한 설정 방식의 약점을 보완하기 위하여 K-means 방법을 많이 사용하고 있다. 하지만, K-means 초기치 설정 방법도 근본적인 문제는 해결하지 못하고 있다. 이러한 문제의 하나의 해결 방안으로 논문이 제안한 균등 분할 및 통계적 특성을 이용한 초기치 선정의 방법을 EM 알고리즘에 적용하였다. 제안된 방법은 기존보다 EM 알고리즘의 특성을 극대화하는 방향으로 더 좋은 결과를 가져온다. 본 논문에서 제안된 알고리즘의 우수성을 제안한 초기치 선정 방법을 적용한 EM과 기존 EM의 시뮬레이션 결과를 비교 분석하여 그 우수성을 제시하였다.

Utilizing UPCA and SPCA in Unsupervised Classification Using Landsat TM data

  • Lee, Byung-Gul;Kang, In-Joon
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2003년도 춘계학술발표회 논문집
    • /
    • pp.167-170
    • /
    • 2003
  • 본 연구는 무감독영상해석(Unsupervised Classification)에서 주성분 분석법(Principal Component Analysis)의 응용성을 연구하기 위하여, 주성분 분석법을 K-means, ISODATA 두가지 무감독분류법에 적용하였다. 적용대상지역은 제주도이다. 본 연구에서 주성분 분석 방법중에서 비정규형 주성분 분석방법 (Unstandardized PCA)과 정규형 주성분 분석방법(Standardized PCA) 두가지 경우로 나누어서 각각 연구하였다. 이를 위하여 제주도의 Landsat TM영상과 국토연구원에서 조사한 제주도 식생분류 조사자료와 현장조사 자료 그리고 1/25,000 수치지도를 이용하였다. 그리고 분석된 자료의 정확도를 평가하기 위하여 오차행렬(Error Matrix)을 도입하여 계산하였다. 우선 비정규형 주성분 분석법으로 구한 주성분 영상과 Landsat TM 원래 영상을 오차행렬을 이용하여 제주도의 식생 분류에 각각 적용하였다. 그 결과, K-means 무감독분류법에서는 Landsat TM 자료를 직접 이용한 경우에는 바다와 육상의 분류가 잘 되지 않았으며, 또한 전반적인 영상분류결과가 관측치와 많은 차이를 보였다. 그러나, 주성분 분석법으로 계산된 주성분 영상으로 K-means방법으로 분류 한 결과는 관측치와 잘 일치를 하였다. ISODATA의 경우, Landsat TM 원래영상을 계산하면, K-means으로 분류한 결과보다는 좋은 값을 나타냈으나, 주성분 분석법으로 구한 영상의 계산결과와 비교하면, 주성분 영상으로 구한 분류결과의 정확도가 약 15%정도 높게 나타났다. 정규형 주성분 분석법의 경우를 보면 K-means에서는 Landsat TM원래 자료보다 우수한 결과를 보여주었으나, 비정규형 주성분 분석법으로 계산된 결과보다는 정확도가 다소 떨어지는 단점이 있었고, ISODATA의 경우도 Landsat TM원래 자료보다 약 7%정도의 높은 정확도를 보였으나, 비정규형 영상보다는 약8%정도 낮은 정확도를 보였다. 본 연구에서 주성분 분석법으로 계산된 결과에서 주목되는 것은, 주성분 분석법으로 구한 주성분 영상은 분류방법(K-means, ISODATA, artificial neural networks)에 따라 분류된 결과값이 비슷하게 나타난 반면, Landsat TM원래 자료는 분류방법에 따라 결과값이 많은 차이를 보여 주었다. 그리고 주성분 분석 방법 중에서도 비정규형 주성분 분석법(Unstandardized PCA)이 정규형 주성분 분석법(Standardized PCA)보다 영상분석에서 더 좋은 결과를 보여주는 것으로 나타났다.

  • PDF