• 제목/요약/키워드: K-Mean++ Clustering

검색결과 280건 처리시간 0.028초

수많은 전략을 가진 차등 진화 (Differential Evolution with Numerous Strategies)

  • 오숙경;신성윤
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.243-244
    • /
    • 2020
  • 본 논문에서는 SIM(Soft Island Model)을 통해 소집단 정보를 이동시키기 위한 KSDE라고 하는 수많은 전략을 제안한다. 먼저, 전체 모집단은 k- 평균 군집 알고리즘에 의해 k 개의 하위 모집단으로 분리된다. 둘째, 소집단에 돌연변이 조작을 수행하기 위해 전략 풀에서 돌연변이 전략을 무작위로 선택한다. 마지막으로, 이 알고리즘의 모집단 다양성을 개선하기 위해 하위 집단 정보가 SIM을 통해 마이그레이션 된다.

  • PDF

K-평균 클러스터링과 그래프 탐색을 통한 심장 자기공명영상의 좌심실 자동분할 알고리즘 (Automatic Left Ventricle Segmentation Algorithm using K-mean Clustering and Graph Searching on Cardiac MRI)

  • 조현우;이해연
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.57-66
    • /
    • 2011
  • 심장 질환을 예방하기 위해서는 정기적인 검진을 통해 심장 기능을 분석하고 관찰하는 것이 중요하다. 정기적인 검진에서 심장 기능은 심장을 촬영한 후에 관측자가 이를 수작업을 통하여 처리하여 혈류량과 심박구출률 등을 분석함으로서 이루어지나, 시간도 오래 걸리며 관측자에 따른 변이성이 문제가 된다. 본 논문에서는 심장 단축 자기공명영상에서 좌심실 영역을 분할하는 자동화된 알고리즘을 제안한다. 코일 위치에 따른 왜곡을 보정하고, K-평균 클러스터링 기법을 이용하여 좌심실 내부를 분할한다. 영상의 왜곡 및 잡음에 의하여 발생하는 분할 오류는 그래프 탐색 기법을 적용하여 수정하였다. 제안하는 알고리즘의 성능을 평가하기 위하여 38명의 지원자 그룹에 대하여 혈류량과 심박구출률을 계산하였고, 전문가에 의한 수동윤곽검출 결과와 GE MASS 소프트웨어와 비교하였다. 결과에 따르면 제안한 알고리즘의 수동윤곽검출과 혈류량의 차이는 평균적으로 이완기에 6.2mL${\pm}$5.6 및 수축기에 2.9mL${\pm}$3.0, 심박구출률의 차이는 2.1%${\pm}$1.5로 높은 정확성을 보였다. 특히 제안한 알고리즘은 기존 알고리즘에서 발생하던 사용자 간섭률을 최소화하여 자동화 성능을 향상하였다.

기상자료 군집화를 통한 지형적 특성 연구 (Clustering Weather Data for Study of Local Distinction)

  • 김민진;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.412-415
    • /
    • 2008
  • 매일 쏟아져 나오는 방대한 양의 기상자료는 현재의 대기상태를 대표하기도 하지만 그 지역의 지형적 특성을 나타내고 있다. 이번 연구는 수원지역의 일일 기상자료를 토대로 지형적 특성과 그에 따른 기상현상(바람, 안개)알고자 한다. K-means를 이용 특정 기상현상끼리 군집화하여 지형적 특성과 비교하였다.

  • PDF

Finding Genes Discriminating Smokers from Non-smokers by Applying a Growing Self-organizing Clustering Method to Large Airway Epithelium Cell Microarray Data

  • Shahdoust, Maryam;Hajizadeh, Ebrahim;Mozdarani, Hossein;Chehrei, Ali
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권1호
    • /
    • pp.111-116
    • /
    • 2013
  • Background: Cigarette smoking is the major risk factor for development of lung cancer. Identification of effects of tobacco on airway gene expression may provide insight into the causes. This research aimed to compare gene expression of large airway epithelium cells in normal smokers (n=13) and non-smokers (n=9) in order to find genes which discriminate the two groups and assess cigarette smoking effects on large airway epithelium cells.Materials and Methods: Genes discriminating smokers from non-smokers were identified by applying a neural network clustering method, growing self-organizing maps (GSOM), to microarray data according to class discrimination scores. An index was computed based on differentiation between each mean of gene expression in the two groups. This clustering approach provided the possibility of comparing thousands of genes simultaneously. Results: The applied approach compared the mean of 7,129 genes in smokers and non-smokers simultaneously and classified the genes of large airway epithelium cells which had differently expressed in smokers comparing with non-smokers. Seven genes were identified which had the highest different expression in smokers compared with the non-smokers group: NQO1, H19, ALDH3A1, AKR1C1, ABHD2, GPX2 and ADH7. Most (NQO1, ALDH3A1, AKR1C1, H19 and GPX2) are known to be clinically notable in lung cancer studies. Furthermore, statistical discriminate analysis showed that these genes could classify samples in smokers and non-smokers correctly with 100% accuracy. With the performed GSOM map, other nodes with high average discriminate scores included genes with alterations strongly related to the lung cancer such as AKR1C3, CYP1B1, UCHL1 and AKR1B10. Conclusions: This clustering by comparing expression of thousands of genes at the same time revealed alteration in normal smokers. Most of the identified genes were strongly relevant to lung cancer in the existing literature. The genes may be utilized to identify smokers with increased risk for lung cancer. A large sample study is now recommended to determine relations between the genes ABHD2 and ADH7 and smoking.

Text Extraction in HIS Color Space by Weighting Scheme

  • Le, Thi Khue Van;Lee, Gueesang
    • 스마트미디어저널
    • /
    • 제2권1호
    • /
    • pp.31-36
    • /
    • 2013
  • A robust and efficient text extraction is very important for an accuracy of Optical Character Recognition (OCR) systems. Natural scene images with degradations such as uneven illumination, perspective distortion, complex background and multi color text give many challenges to computer vision task, especially in text extraction. In this paper, we propose a method for extraction of the text in signboard images based on a combination of mean shift algorithm and weighting scheme of hue and saturation in HSI color space for clustering algorithm. The number of clusters is determined automatically by mean shift-based density estimation, in which local clusters are estimated by repeatedly searching for higher density points in feature vector space. Weighting scheme of hue and saturation is used for formulation a new distance measure in cylindrical coordinate for text extraction. The obtained experimental results through various natural scene images are presented to demonstrate the effectiveness of our approach.

  • PDF

PFCM 클러스터링 기법의 개선 (Improvement of the PFCM(Possibilistic Fuzzy C-Means) Clustering Method)

  • 허경용;최세운;우영운
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.177-185
    • /
    • 2009
  • 클러스터링은 주어진 데이터 포인트들을 주어진 개수의 그룹으로 나누는 비지도 학습의 한 방법이다. 클러스터링의 방법 중 하나로 널리 알려진 퍼지 클러스터링은 하나의 포인트가 모든 클러스터에 서로 다른 정도로 소속될 수 있도록 함으로써 하나의 클러스터에만 속할 수 있도록 하는 K-means와 같은 방법에 비해 자연스러운 클러스터 형태의 유추가 가능하고, 잡음에 강한 장점이 있다. 이 논문에서는 기존의 퍼지 클러스터링 방법 중 소속도(membership)와 전형성(typicality)을 동시에 계산해 낼 수 있는 Possibilistic Fuzzy C-Means(PFCM) 방법에 Gath-Geva(CG)의 방법을 적용하여 PFCM을 개선한다. 제안한 방법은 PFCM 장점을 그대로 가지면서도, GG의 거리 척도에 의해 클러스터들 사이의 경계를 강조함으로써 분류 목적에 적합한 소속도를 계산할 수 있으며 전형성은 가우스 형태의 분포에서 생성된 포인트들의 분포 함수를 정확하게 모사함으로써 확률 밀도 추정의 방법으로도 사용될 수 있다. 또한 GG 방법은 Gustafson-Kessel 방법과 달리 클러스터에 포함된 포인트의 개수가 확연히 차이나는 경우에도 정확한 결과를 얻을 수 있다. 이러한 사실들은 실험 결과를 통해 확인할 수 있다.

그래프 컷을 이용한 학습된 자기 조직화 맵의 자동 군집화 (Automatic Clustering on Trained Self-organizing Feature Maps via Graph Cuts)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.572-587
    • /
    • 2008
  • SOFM(Self-organizing Feature Map)은 고차원의 데이타를 군집화(clustering)하거나 시각화(visualization)하기 위해 많이 사용되고 있는 비교사 학습 신경망(unsupervised neural network)의 한 종류이며, 컴퓨터비전이나 패턴인식 분야에서 다양하게 활용되고 있다. 최근 SOFM이 실제 응용분야에 다양하게 활용되고 좋은 결과를 보이고 있지만, 학습된 SOFM의 뉴론(neuron)을 다시 군집화해야 하는 후처리가 필요하며, 대부분의 경우 수동으로 이루어지고 있다. 후처리를 자동으로 하기 위해 k-means와 같은 기존의 군집화 알고리즘을 많이 이용하지만, 이 방법은 특히 다양한 모양의 클래스를 가진 고차원의 데이타에서 만족스럽지 못한 결과를 보인다. 다양한 모양의 클래스에서 좋은 성능을 보이기 위해, 본 논문에서는 그래프 컷(graph cut)을 이용하여 학습된 SOFM을 자동으로 군집화하는 방법을 제안한다. 그래프 컷을 이용할 때 터미널(terminal)이라는 두 개의 추가적인 정점(vertex)이 필요하며, 터미널과 각 정점 사이의 가중치는 대부분 사용자에 의해 입력받은 사전정보를 기반으로 설정된다. 제안된 방법은 SOFM의 거리 매트릭스(distance matrix)를 기반으로 한 모드 탐색(mode-seeking)과 모드의 군집화를 통하여 자동으로 사전정보를 설정하며, 학습된 SOFM의 군집화를 자동으로 수행한다. 실험에서 효율성을 검증하기 위해 제안된 방법을 텍스처 분할(texture segmentation)에 적용하였다. 실험 결과에서 제안된 방법은 기존의 군집화 알고리즘을 이용한 방법보다 높은 정확도를 보였으며, 이는 그래프기반의 군집화를 통해 다양한 모양의 클러스터를 처리할 수 있기 때문이다.

CT영상에서 이미지 분할기법을 적용한 Blooming Artifact Reduction 비교 연구 (Comparison of Blooming Artifact Reduction Using Image Segmentation Method in CT Image)

  • 김정훈;박지은;박유진;지인희;이종민;조진호
    • 대한의용생체공학회:의공학회지
    • /
    • 제38권6호
    • /
    • pp.295-301
    • /
    • 2017
  • In this study, We subtracted the calcification blooming artifact from MDCT images of coronary atherosclerosis patients and verified their accuracy and usefulness. We performed coronary artery calcification stenosis phantom and a program to subtract calcification blooming artifact by applying 8 different image segmentation method (Otsu, Sobel, Prewitt, Canny, DoG, Region Growing, Gaussian+K-mean clustering, Otsu+DoG). As a result, In the coronary artery calcification stenosis phantom with the lumen region 5 mm the calcification blooming artifact was subtracted in the application of the mixture of Gaussian filtering and K- Clustering algorithm, and the value was close to the actual calcification region. These results may help to accurately diagnose coronary artery calcification stenosis.

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

  • 구해모;남창민;이우현;이용재;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2018
  • 데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.

내부 알파탄소간 거리와 비네-코시 거리를 사용한 대규모 단백질 조각 라이브러리 구성 (Construction of Large Library of Protein Fragments Using Inter Alpha-carbon Distance and Binet-Cauchy Distance)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제19권12호
    • /
    • pp.3011-3016
    • /
    • 2015
  • 단백질의 삼차원 구조를 단백질의 국부적 구조인 단백질 조각의 일차원적 나열로 표현하면, 단백질 구조의 분석, 모델링, 탐색, 예측 등에 효과적으로 응용될 수 있다. 본 논문에서는 자연 상태의 단백질 구조를 정확하게 나타낼 수 있는 단백질 조각 라이브러리를 구성하기 위하여, 대규모 단백질 구조 자료를 이용 할 수 있는 거리 척도들의 효과적인 조합을 조사하였다. 단백질 조각 라이브러리를 구성하기 위해 군집화를 사용하였다. 초기 군집화 단계에서는 가장 계산량이 작은 내부 알파탄소간 거리를 사용하였고, 군집의 확장단계에서는 내부 알파탄소간 거리, 비네-코시거리와 평균 제곱근 오차를 조합하여 사용하였다. 제안한 거리 척도의 조합으로 대규모 자료를 이용하여 단백질 조각 라이브러리를 구성하였다. 구성된 라이브러리를 사용하여 단백질 구조를 나타내는 실험에서 작은 평균 제곱근 오차가 발생함을 확인하였다.