• 제목/요약/키워드: 모형기반 군집방법

검색결과 37건 처리시간 0.024초

마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교 (Comparison of clustering methods of microarray gene expression data)

  • 임진수;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.39-51
    • /
    • 2012
  • 군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.

스마트 그리드에서의 시계열 군집분석을 통한 전력수요 예측 연구 (A study on electricity demand forecasting based on time series clustering in smart grid)

  • 손흥구;정상욱;김삼용
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.193-203
    • /
    • 2016
  • 본 논문은 ICT기반 시장에서의 수요관리시스템에서의 핵심 요소인 전력 수요 예측을 위하여, 전체 사용량을 기반으로 예측 하는 방식이 아닌, 시계열 기반 군집분석을 통한 군집별 예측량의 결합을 실시하였다. 시계열 군집 분석 방법으로서 Periodogram 기반의 정규화 군집분석, 예측 기반의 군집분석, DTW(Dynamic Time Warping)를 이용하여 군집화를 시도하였으며, 군집 별 수요예측 모형으로서 DSHW(Double Seasonal Holt-Winters) 모형, TBATS(Trigonometric, Box-Cox transform, ARMA errors, Trend and Seasonal components) 모형, FARIMA(Fractional ARIMA) 모형을 사용하여 예측을 실시하였다. 전체 사용량을 기반으로 예측 하는 방식이 아닌, 군집분석을 통한 군집별 예측량의 결합이 더 낮은 MAPE로 나타남에 따라 우수한 예측 방법으로 판단되었다.

정규분포기반 두각 혼합모형의 순환적 적합을 이용한 군집분석에서의 변수선택 (Variable Selection in Clustering by Recursive Fit of Normal Distribution-based Salient Mixture Model)

  • 김승구
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.821-834
    • /
    • 2013
  • Law 등 (2004)은 군집분석에서 변수선택을 위해 정규분포기반 "두각 혼합모형(salient mixture model)"의 사용을 제안하였다. 본 논문에서는 이 모형의 적합 상의 문제점과 변수선택의 결함을 지적하고 그 대안을 제시한다. 모의자료와 실자료를 바탕으로 제안된 방법이 기존의 방법보다 유용함을 보였다.

이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택 (Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity)

  • 김승구
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1213-1224
    • /
    • 2011
  • 관측치의 개수보다 변량의 개수가 더 많은 다변수 상황에서 정규혼합모형을 이용하여 군집분석을 하기 위해서는 비정보적인 변수들을 제거하는 과정이 필수적으로 요구된다. 이와 같은 변수선택과 군집의 동시 처리를 위한 기존 연구의 대부분은 군집별 등분산 가정 하에서 이루어져 왔으며, 비정보적인 변수를 제거하기 위해 주로 벌점화 우도 기법이 이용되었다. 본 연구에서는 약간 변형된 정규혼합모형을 기반으로 비현실적인 등분산 가정을 탈피하면서 효율적으로 비정보적인 변수를 제거하는 새로운 방법을 제공한다. 이 모형에 대한 타당성을 설명하였고, 모수 추정을 위한 EM 알고리즘을 유도하였다. 그리고 모의실험 및 실자료 실험을 통해 제안된 방법의 유효성을 보였다.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

스마트그리드 환경하의 가정용 AMI 자료를 위한 시계열 군집분석 연구 (Time series clustering for AMI data in household smart grid)

  • 이진영;김삼용
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.791-804
    • /
    • 2020
  • 스마트그리드 환경하에서 ICT 기술의 발달로 AMI 기기를 통해 가정의 실시간 전력사용량을 수집할 수 있게 됨에 따라 이러한 자료들을 활용하여 보다 더 정확한 가정용 전력사용량 예측을 할 수 있게 되었다. 본 논문에서는 1시간 단위 가정용 전력사용량 자료를 바탕으로 ARIMA, TBATS, NNAR 모형을 사용하여 전력수요를 예측하는 모형을 연구하였는데, 기존과 달리 가구 전체 사용량을 한 번에 예측하는 것이 아닌 유사한 전력사용패턴을 나타내는 가구들을 군집하여 군집별로 예측 모형을 수립하고 각 모형별 예측치를 합산하여 예상 전력사용량을 산출하였다. 특히 전력사용량 자료는 전형적인 시계얼 자료로서 군집분석 방법으로 시계열에 적절한 방법을 선택하였으며 본 논문에서는 동적타임워핑(dynamic time warping)과 Periodogram 기반의 방법을 사용하였다. 연구 결과 사용량이 유사한 가구들을 군집하여 전력사용량을 예측하는 것이 한 번에 예측하는 것보다 예측 성능이 더 우수한 것으로 나타났으며 예측 모형 중에서는 여름철의 경우 NNAR 모형이, 겨울철의 경우 TBATS 모형의 성능이 가장 좋았으며 군집분석 방법은 군집 간 패턴의 차이가 명확히 나타난 동적타임워핑 방법을 사용했을 때 예측 성능의 향상이 가장 많았다.

드론기반 초분광 영상을 활용한 하천 합류부 부유사 혼합 분석 (Analysis of suspended sediment mixing in a river confluence using UAV-based hyperspectral imagery)

  • 권시윤;서일원;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.89-89
    • /
    • 2022
  • 하천 합류부에 지천이 유입되는 경우 복잡한 3차원적 흐름 구조를 발생시키고 이로 인해 유사혼합 및 지형 변화가 활발히 발생하게 된다. 특히, 하천 합류부에서 부유사 거동은 하천의 세굴과퇴적, 하천 지형 변화, 하천 생태계, 하천구조물 안정성 등에 직접적으로 영향을 미치기 때문에 이에 대한 정확한 분석이 하천 관리 및 재해 예방에 필수적인 요소이다. 기존의 하천 합류부 부유사 계측 자료들은 재래식 채취 방식으로 수행되어 시공간적 해상도가 매우 낮아서 실측 자료만으로 합류부에서 부유사 혼합을 분석하기에는 한계가 존재하기에 대하천의 부유사 혼합 거동 해석에 수치모형이 주로 활용되어 왔다. 본 연구에서는 하천 합류부에서 부유사 거동을 공간적으로 정밀하게 분석하기 위해 드론 기반초분광 영상을 활용하여 하천 합류부에 최적화된 부유사 계측 방법론을 제시하였다. 현장에서 계측한 초분광 자료와 부유사 농도간의 관계를 구축하기 위하여 기계학습모형인 랜덤포레스트(Random Forest) 회귀 모형과 합류부에서 분광 특성이 다른 두 하천의 특성을 정확하게 반영하기 위한 가우시안 혼합 모형 (Gaussian Mixture Model) 기반 초분광 군집화 기법을 결합하였다. 본 연구에서 구축한 방법론을 낙동강과 황강의 합류부에 적용한 결과, 초분광 군집을 통해 두하천 흐름의 경계층을 명확히 구별하였으며, 이를 바탕으로 지류와 본류에 대해 각각 분리된 회귀 모형을 구축하여 복잡한 합류부 근역 경계층에서의 부유사 거동을 보다 정확하게 재현하였다. 또한 나아가서 재현된 고해상도의 부유사 공간분포를 바탕으로 경계층에서 강한 두 흐름이 혼합되어 발생한 와류(Wake)가 부유사 혼합에 미치는 영향을 규명하였고, 하천 합류부에서 발생하는 전단층의 수평방향 대규모 와류가 부유사 혼합 양상에 지배적 영향을 미치는 것으로 확인하였다.

  • PDF