• 제목/요약/키워드: 확률과 통계, 군집분석

검색결과 17건 처리시간 0.027초

Robust PCA를 활용한 이공계 대학생의 확률 및 통계 개념 이해도 분석 (Clustering Analysis of Science and Engineering College Students' understanding on Probability and Statistics)

  • 유용석
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.252-258
    • /
    • 2022
  • 본 연구에서는 실제 대학의 소규모 강좌에서 확률과 통계에 대한 수강생들의 이해도를 쉽고 빠르게 분석하기 위한 방법을 제안한다. 95명의 이공계 대학생을 대상으로 확률과 통계에 대한 컴퓨터 기반 검사를 시행하였다. 학생들의 응답을 Robust PCA와 가우시안 혼합 모델을 사용하여 7개의 군집으로 나눈 뒤, 각 군집 별로 주제별 성취도를 분석하였다. 상위권 군집은 통계적 추정을 제외한 다른 주제들에 대해서 대체로 높은 성취도를 보였으며, 저성취 군집들은 서로 다른 주제에 대해서 강약점을 보였다. 제안하는 기법은 기존에 널리 쓰이는 PCA를 사용하여 차원 축소 후 군집 분석을 수행한 것 보다 각 군집들의 특성이 더 분명하게 나타냈다. 이는 각 군집 별 특징에 따른 개별화된 학습 전략을 개발하는 데 활용될 수 있다.

생물/보건/의학 연구를 위한 비모수 베이지안 통계모형 (Nonparametric Bayesian Statistical Models in Biomedical Research)

  • 노희상;박진수;심규석;유재은;정연승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.867-889
    • /
    • 2014
  • 비모수 베이지안 통계 모형은 그 유연성과 계산의 편리성으로 인해 최근 다양한 분야에서 응용되고 있는데, 본 논문에서는 생물/의학/보건 연구에서 사용되는 비모수 베이지안 통계 모형에 대해서 개괄하였다. 본 논문에서는 비모수 베이지안 통계 모델링에서 핵심적으로 사용되는 확률모형들을 소개하고, 다양한 예제들을 통하여 그 모형들이 어떻게 사용되는지 이해를 돕도록 하였다. 특별히, 논의된 예제들은 모수적 통계 모형으로 고찰하기에는 한계가 있는 연구가설들을 포함하고 있어 모수적 모형의 한계점을 지적하고 비모수적 베이지안 모형의 필요성을 강조하는 것들로 정하였다. 크게 확률밀도함수 추정, 군집분석, 임의효과 분포의 추정, 그리고 회귀분석의 4가지 주제로 분류하여 살펴보았다.

확률적 reduced K-means 군집분석 (Probabilistic reduced K-means cluster analysis)

  • 이승훈;송주원
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.905-922
    • /
    • 2021
  • 라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.

극치강수량의 시공간적 특성을 이용한 지역빈도분석 (Regionalization of Extreme Rainfall with Spatio-Temporal Pattern)

  • 이정주;권현한;김병식;윤석영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1429-1433
    • /
    • 2010
  • 수공구조물의 설계, 수자원 관리계획의 수립, 재해영향 검토 등을 수행할 때, 재현기간에 따른 확률개념의 강우량, 홍수량, 저수량 등을 산정하여 사용하게 되며, 보통 대상지역의 장기 수문관측 자료를 이용하여 수문사상의 확률분포를 산정한 후 재현기간을 연장하여 원하는 설계빈도에 해당하는 양을 추정하게 된다. 미계측지역 또는 관측자료의 보유기간이 짧은 지역의 경우는 지역빈도 분석 결과를 이용하게 된다. 지역빈도해석을 위해서는 강우자료들의 동질성을 파악하는 것이 가장 기본적인 과정이 되며 이를 위해 통계학적인 범주화분석이 선행되어야 한다. 지점 빈도분석의 수문학적 동질성 판별을 위해 L-moment 방법, K-means 방법에 의한 군집분석 등이 주로 사용되며 관측소 위치좌표를 이용한 공간보간법을 적용하여 시각화하고 있다. 강수량은 시공간적으로 변하는 수문변량으로서 강수량의 시간적인 특성 또한 강수량의 특성을 정의하는데 매우 중요한 요소이다. 이러한 점에서 본 연구를 통해 강수지점의 공간적인 좌표 및 강수량의 양적인 범주화에 초점을 맞춘 기존 지역빈도분석의 범주화 과정에 덧붙여 시간적인 영향을 고려할 수 있는 요소들을 결정하고 이를 활용할 수 있는 범주화 과정을 제시하고자 한다. 즉, 극치강수량의 발생 시기에 대한 정량적인 분석이 가능한 순환통계기법을 이용하여 관측 지점별 시간 통계량을 산정하고, 이를 극치강수량과 결합하여 시 공간적인 특성자료를 생성한 후 이를 이용한 군집화 해석 모형을 개발하는데 연구의 목적이 있다. 분석 과정에 있어서 시간속성의 정량화 및 일반화는 순환통계기법을 사용하였으며, 극치강수량과 발생시점의 속성자료는 각각의 평균과 표준편차를 이용하였다. K-means 알고리즘을 이용해 결합자료를 군집화 하고, L-moment 방법으로 지역화 결과에 대한 검증을 수행하였다. 속성 결합 자료의 군집화 효과는 모의데이터 실험을 통해 확인하였으며, 우리 나라의 58개 기상관측소 자료를 이용하여 분석을 수행하였다. 예비해석 단계에서 100회의 군집분석을 통해 평균적인 centroid를 산정하고, 해당 값을 본 해석의 초기 centroid로 지정하여, 변동적인 클러스터링 경향을 안정화시켜 해석이 반복됨에 따라 군집화 결과가 달라지는 오류를 방지하였다. 또한 K-means 방법으로 계산된 군집별 공간거리 합의 크기에 따라 군집번호를 부여함으로써 군집의 번호순서대로 물리적인 연관성이 인접하도록 설정하였으며, 군집간의 경계선을 추출할 때 발생할 수 있는 오류를 방지하였다. 지역빈도분석 결과는 3차원 Spline 기법으로 도시하였다.

  • PDF

전기 사용량 시계열 함수 데이터에 대한 비모수적 군집화 (Nonparametric clustering of functional time series electricity consumption data)

  • 김재희
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.149-160
    • /
    • 2019
  • 본 연구는 2016년 7월부터 2017년 6월까지 인천 소재 A 대학교의 15분 단위의 일일 전기 사용량 시계열 데이터에 대해 functional data analysis 기법을 적용하여 군집화하고 각 군집의 특성을 파악하고 예측에 활용하고자 한다. 하루동안의 A 대학교의 전기 사용량은 패턴은 주중과 주말 에 큰 차이를 보이며 스플라인 기저함수로 FPCA 구한 후 이들에 대한 가우시안 분포의 혼합모형 기반 군집분석으로 3개의 군집화가 적절해 보인다. 각 군집에 대해 평균 함수, 확률밀도함수, 일들의 분포 등을 정리해 각 군집에 대한 정보와 특징을 보여준다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.

종양 이질성을 검정을 위한 통계적 방법론 연구 (Statistical methods for testing tumor heterogeneity)

  • 이동녘;임창원
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.331-348
    • /
    • 2019
  • 전이성 종양의 성장패턴 차이와 변화율에 따른 종양 이질성(tumor heterogeneity)을 파악하는 것은 종양세포의 약물에 대한 민감성을 파악하고 적절한 치료법을 찾아내기 위해 중요하다. 일반적으로 N개의 표본의 집단이 구분된다면 t-test 혹은 ANOVA 분석을 통해 집단별 평균의 차이에 대한 검정이 가능하다. 그러나 본 논문에서 다루는 데이터와 같이 집단이 구분되지 않는 경우 이러한 방법들은 사용될 수 없다. 표본들 사이의 이질성을 검정하기 위한 통계적 방법들이 연구되어 왔다. 최소 조합 t-검정 방법은 그 중 하나이다. 본 논문에서는 상이한 비율로 데이터를 양분하는 조합도 고려하는 최대 조합 t-검정 방법을 제안한다. 한편, 표본의 이질성을 검정하는 것이 군집분석에서 최적의 군집의 개수가 2개 이상인지를 검정하는 것과 같음에 착안하여 새로운 방법을 제안한다. 최대 조합 t-검정과 gap통계량을 이용하면 이전에 제안된 방법보다 개선된 제1종의 오류를 범할 확률과 검정력을 갖는다는 것을 모의실험을 통해 확인하였고 실제 자료 분석을 통해 결과를 도출하였다.

군집 특정 변량효과를 포함한 유한 혼합 모형의 베이지안 분석 (Bayesian analysis of finite mixture model with cluster-specific random effects)

  • 이혜진;경민정
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.57-68
    • /
    • 2017
  • 대량의 데이터에 있어 전반적인 특성 및 구조를 파악하는데 유용하기 때문에 다양한 분야에서 군집분석을 사용하고 있다. Dempster 등 (1977)에서 정의된 expectation-maximization(EM) 알고리즘은 가장 보편적으로 사용되는 군집분석 방법이다. 선형모형의 유한혼합물(finite mixture of linear model) 기법 또한 군집분석 방법 중 많이 사용되는 방법이며 베이지안 군집방법은 Bernardo와 Giron (1988)이 군집에 대한 가중치 확률만 모를 경우 처음 적용하였다. 우리는 이 연구에서 일반적인 선형모형의 유한혼합물이 아닌 군집특정(cluster-specific) 변량효과를 모형에 포함하여 베이지안 분석방법인 깁스표집법(Gibbs sampling)을 사용한다. 제안한 모형의 특성 및 표집법에 대하여 설명하였고 모의실험 및 실제 데이터 분석을 통하여 모형의 유용성을 파악하였다. Hurn 등 (2003)의 CO2 데이터에 모형을 적용하여 변량효과가 없는 모형, 개체특정(subject-specific) 변량효과 모형과 비교하였다.

공간현상 분석을 위한 GIS 기반의 공간통계적 접근방법에 관한 고찰: 공간 군집지역 탐색을 위한 공간검색통계량의 실증적 사례분석 (A Study on Spatial Statistical Perspective for Analyzing Spatial Phenomena in the Framework of GIS: an Empirical Example using Spatial Scan Statistic for Detecting Spatial Clusters of Breast Cancer Incidents)

  • 이경주;권일
    • Spatial Information Research
    • /
    • 제20권1호
    • /
    • pp.81-90
    • /
    • 2012
  • 지리적 공간상에서 발생하는 대부분의 현상은 서로 인접한 곳에서 유사한 값을 가지는 특성이 있다. 이는 공간자기상관성과 관련이 있으며 공간분석의 존재 이유를 나타내는 개념이다. 또한 지리적 공간상에서 위치에 따라 값의 분포가 다양한 패턴을 보이게 된다. 이러한 패턴은 공간적 변이를 내포하고 있다. 즉, 특정 위치에서 항상 같은 값을 관찰할 수 있다고 단정하기는 불가능하기 때문에 이러한 변이는 본질적으로 확률론적 특성을 지닌다. 이러한 공간자료의 특성들을 무시하고 일반적 통계분석 등을 수행할 경우 공간자기상관성으로 인하여 통계분석에서 가정하는 자료 값들 간 독립성이 위배되고 분석결과는 왜곡될 가능성이 크다. 그러므로 공간자료 분석을 위해서는 공간자기상관성과 확률론적 변이를 적절하게 반영할 수 있는 수단이 필요하다. GIS는 공간적 위치정보를 처리하는데 적합하고 공간통계학은 공간적 변이를 다루는데 유용하다. 따라서 GIS를 기반으로 공간통계학을 통합하는 분석방식은 공간자료의 특성들을 고려하여 유의미한 분석을 하기에 적합한 장점이 있다. 본 연구의 목적은 공간자료 분석에 있어서 공간통계학과 GIS를 결합하는 접근방식의 유용성을 논의하고 실증적 사례분석을 통하여 구체적 활용성을 살펴보는 것이다. 이를 위하여 공간통계학을 주요 방법론으로 활용하는 공간역학(spatial epidemiology) 분야를 예시적으로 살펴보았다. 구체적으로는 공간검색통계량을 이용하여 미국 Erie 및 Niagara 카운티(New York 주) 내의 유방암 발생의 공간적 군집패턴 분석 논의하였다.

음의 일치 빈도를 고려한 유사성 측도의 대소 관계 규명에 관한 연구 (A study on the ordering of similarity measures with negative matches)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.89-99
    • /
    • 2015
  • 세계 경제 포럼과 대한민국 지식경제부에서 10대 핵심정보기술 가운데 하나로 빅 데이터를 선정한 바 있다. 빅 데이터에 대한 분석은 결국 데이터들이 가지고 있는 속성을 얼마나 효과적으로 분석하느냐가 관건이다. 이를 위한 기법들 중에서 군집 분석 방법은 거리 또는 유사성 측도를 이용하여 각 개체의 유사성을 측정하여 유사도가 높은 대상 집단을 분류하고 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 밝혀내는 통계분석 기법이다. 군집분석에서 이용되고 있는 유사성 측도는 데이터의 속성에 따라 여러 가지의 형태로 분류할 수 있으며, 범주형 데이터에 적용 가능한 측도들은 음의 일치 빈도를 고려한 측도, 음의 일치 빈도를 고려하지 않는 측도, 그리고 주변 확률 분포의 포함 여부에 의한 측도 등으로 구분할 수 있다. 음의 일치 빈도는 동시발생빈도와 더불어 두 항목간의 관련성에 대한 순방향성을 의미하므로 이를 고려하지 않는 유사성 측도들보다 이를 고려한 유사성 측도들이 좀 더 현실적인 측도라고 할 수 있다. 따라서 본 논문에서는 이분형 데이터에 대해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려한 측도들에 대해 대소 관계를 규명함으로써 이들의 상한 및 하한을 설정하는 문제를 고려하였다.