• 제목/요약/키워드: 계층적 군집방법

검색결과 115건 처리시간 0.032초

상대적 계층적 군집 방법을 이용한 마이크로어레이 자료의 군집분석 (Microarray data analysis using relative hierarchical clustering)

  • 우숙영;이재원;전명식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.999-1009
    • /
    • 2014
  • 계층적 군집 분석은 분석 결과를 덴드로그램으로 쉽게 표시할 수 있어서 방대한 양의 마이크로어레이 자료를 탐색하기에 유용하며, 군집된 결과를 이용하여 생물학적 현상을 이해하는데 도움을 준다. 하지만, 계층적 군집방법은 두 군집간의 절대값 거리만을 고려하여 병합하기 때문에 군집 간의 상대적 비유사성은 설명하지 못하는 단점이 있다. 본 연구에서는 상대적 계층적 군집 방법을 소개하고, 마이크로어레이 자료와 같이 다양한 군집의 모양을 가진 모의실험 자료들과 실제 마이크로어레이 자료를 사용하여 상대적 계층적 군집방법과 기존의 계층적 군집 방법을 비교하였다. 두 계층적 군집 방법의 질적 평가는 오분류율, 동질성, 이질성 지표를 이용하여 수행하였다.

정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구 (Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval)

  • ;강대현;박한샘;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

자기 조직화 지도와 계층적 군집화를 이용한 유전자 발현 데이터 군집화 기법 (Clustering of Gene Expression Data by using SOM and Hierarchical Clustering)

  • 박창범;이동환;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.784-786
    • /
    • 2003
  • 본 논문에서는 유전자 발현 데이터를 분석하는데 있어서 자기 조직화 지도와 계층적 군집화 기법을 상호 보완적으로 사용하여 사용자가 보다 직관적으로 군집화 결과를 해석할 수 있는 방법을 제안한다. 제안된 방법을 사용하면 빠른 처리 속도로 대용량 데이터 처리에 적합한 자기 조직화 지도의 장점을 살릴 수 있으며 계층적 군집화의 장점인 가시화 기능을 이용하여 자기 조직화 지도의 단점인 군집 경계에 대한 불명확성을 해소하여 군집화 결과를 사용자가 쉽게 이해하고 직관적으로 해석할 수 있도록 도와준다. 본 논문에서 제안된 방법의 효용성을 검증하기 위해 세 종류의 데이터를 사용하여 실험을 수행한 결과 제안된 방법이 기존 방법에 비해 더 나은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

데이터 마이닝을 위한 계층적 대표값 군집화 기법 (A Hierarchical Representatives Clustering Technique for Data Mining)

  • 안병주;김은주;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.69-71
    • /
    • 2000
  • 군집화는 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 대부분의 군집화 기법들은 비교적 적은 양의 데이터를 대상으로 한 것이고 다차원 대용량의 데이터 처리에 관한 문제는 다루지 않고 있어서 데이터 마이닝을 위한 군집화 기법으로는 부적절하다. 따라서 본 논문을 통해 대용량의 데이터에 적용할 수 있는 새로운 군집화 알고리즘인 계층적 대표값 군집화(HRC) 기법을 제안한다. HRC는 자기조직화지도와 계층적 군집화 기법을 접목한 하이브리드 방법으로 두 단계에 거쳐 군집화를 수행한다. 첫 번째 단계에서 자기조직화지도를 통해 데이터를 요약하고, 두 번째 단계에서 요약된 대표값 정보만을 가지고 계층적인 군집화를 수행한다. 또한, 두 번째 단계의 계층적 군집화 적용시 양질의 군집을 발견하기 위해 군집간의 유사도를 측정하는 새로운 척도를 고안하였다. 그리고 실험을 통해 HRC와 기존 군집화 알고리즘이 발견한 군집의 질을 비교하여 성능을 평가했다.

  • PDF

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

상수관로 누수위치 자료를 이용한 계층적 군집분석 (Hierarchical Clustering Analysis of Water Main Leak Location Data)

  • 박수완;임광채;최창록;김규리
    • 한국수자원학회논문집
    • /
    • 제42권3호
    • /
    • pp.177-190
    • /
    • 2009
  • 노후수도관 개량사업은 예산상, 시공상 등의 여러 제약조건에 의해서 장기적인 계획 하에 시행되게 된다. 본 연구에서는 연구대상지역에서 1992년부터 1997년 사이에 기록된 누수 위치좌표 약 8,000개를 이용하여 누수 위치들 간의 공간적 상관관계에 대한 계층적 군집분석을 수행한다. 계층적 군집분석방법 중 최단 연결법, 최장 연결법 및 평균 연결법을 적용하여 연구대상지역을 누수위치의 공간적 상관관계에 따라 분할하였으며, 각 군집 방법 별로 분할된 구역들을 비교하여 연구대상지역에 가장 적절한 군집 분석방법을 제시한다. 제시된 최적의 군집분석 방법을 이용하여 연구대상지역을 누수 위치들을 군집으로 분할한 후 군집으로 분할된 각 구역의 단위면적당 누수건수를 산정하고 이에 따라서 분할된 구역들에 대한 상수관망 유지관리 우선순위를 결정한다.

GHSOM을 이용한 대용량 데이터 처리의 군집화 방법 (A Clustering Method using GHSOM for Processing Large Data)

  • 김만선;이상용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.393-396
    • /
    • 2002
  • 최근 대용량의 데이터베이스로부터 유용한 정보를 발견하고 데이터간에 존재하는 연관성을 탐색하고 분석하는 데이터 마이닝에 관한 많은 연구들이 진행되고 있다. 실제 응용분야에선 수집된 데이터는 시간이 지날수록 데이터의 양이 늘어나게 되고, 중복되는 속성과 잡음을 갖게 되어 마이닝 기법을 이용하는데 많은 시간과 비용이 소요된다. 또한 어느 속성이 중요한지 알 수 없어 중요한 속성이 중요하지 않은 속성에 의해 왜곡되거나 제대로 분석되지 않을 수 있다. 본 연구는 이러한 문제점들을 해결하기 위해 GHSOM을 이용한 계층적 신경망 군집화 방법을 제안한다. 제안하는 방법은 비리 군집의 개수를 정해줄 필요가 없고, 다양한 레벨의 군집들을 얻을 수 있는 계층적 군집화를 이루어낸다는 장점을 갖는다. 본 논문에서는 신경망 GHSOM의 구조와 특성에 대해 간략히 살펴보고 시스템 처리과정에 대해 설명한다.

  • PDF

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.