• 제목/요약/키워드: Hierarchical data

검색결과 3,038건 처리시간 0.049초

계층적 불균형 클러스터링 기법을 이용한 에너지 소비 모델 (An Energy Consumption Model using Hierarchical Unequal Clustering Method)

  • 김진수;신승수
    • 한국산학기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.2815-2822
    • /
    • 2011
  • 무선 센서 네트워크에서 클러스터링 기법은 클러스터를 형성하여 데이터를 병합한 후 한 번에 전송해서 에너지를 효율적으로 사용하는 기법이다. 본 논문에서는 클러스터 그룹 모델을 이용한 계층적 불균형 클러스터링 기법을 제안한다. 이 기법은 전체 네트워크를 두 개의 계층으로 나누어 클러스터 그룹으로 형성된 2계층의 데이터를 병합해서 1계층으로 보내고, 다시 1계층에서 데이터를 병합하여 기지국으로 보낸다. 이와 같이 제안된 기법은 다중 홉 통신 구조와 클러스터 그룹 모델을 같이 이용함으로써 전체 에너지 소모량을 줄인다. 이러한 방식은 다중 홉 통신이지만 불균형 클러스터를 구축하여 핫 스팟 문제를 어느 정도 해결하고 있다. 실험을 통하여 제안된 계층적 불균형 클러스터링 기법이 이전의 클러스터링 기법보다 네트워크 에너지 효율이 향상되었음을 보였다.

위계적 선형모형을 이용한 강의평가 결정요인 분석 (Determinants of student course evaluation using hierarchical linear model)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1285-1296
    • /
    • 2013
  • 강의평가 결과에 영향을 미치는 특성변수로는 교과목 수준의 다양한 강좌특성 변수들과 수강생 수준의 다양한 인적특성 변수들이 있다. 특정 수강생은 다수의 교과목을 이수하기 때문에 다수의 교과목들은 동일한 수강생 안에 속하게 됨으로써 공유되는 특성이 있게 된다. 즉 강의평가 결과는 교과목 수준의 강좌특성 (1-수준)과 수강생 수준의 인적특성 (2-수준)에 의해 영향을 받는 다층구조 (multilevel)를 가지게 되며, 위계적 자료 특성을 가지는 복수의 분석단위의 구조가 된다. 따라서 전통적인 회귀분석에서와 같이 개별 교과목들이 독립이라는 가정을 할 수 없게 된다. 본 논문에서는 강의평가결과에 영향을 미치는 다층구조의 특성을 가진 변수들의 영향력을 보다 타당하게 분석하기 위한 방법으로 위계선형모형 (HLM; hierarchical linear model)을 이용하였다. 분석결과는 다음과 같다. 먼저 교과목 수준의 특성변수들 중에 강좌규모, 개설학년, 담당교수의 전임여부, 해당 교과목의 총 평균평점, 원어강좌 여부가 통계적으로 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다. 또한 수강생 수준의 인적특성 변수들 중에는 성별, 학과계열, 대입당시 전형방법, 평균평점 등이 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다.

Bayesian methods in clinical trials with applications to medical devices

  • Campbell, Gregory
    • Communications for Statistical Applications and Methods
    • /
    • 제24권6호
    • /
    • pp.561-581
    • /
    • 2017
  • Bayesian statistics can play a key role in the design and analysis of clinical trials and this has been demonstrated for medical device trials. By 1995 Bayesian statistics had been well developed and the revolution in computing powers and Markov chain Monte Carlo development made calculation of posterior distributions within computational reach. The Food and Drug Administration (FDA) initiative of Bayesian statistics in medical device clinical trials, which began almost 20 years ago, is reviewed in detail along with some of the key decisions that were made along the way. Both Bayesian hierarchical modeling using data from previous studies and Bayesian adaptive designs, usually with a non-informative prior, are discussed. The leveraging of prior study data has been accomplished through Bayesian hierarchical modeling. An enormous advantage of Bayesian adaptive designs is achieved when it is accompanied by modeling of the primary endpoint to produce the predictive posterior distribution. Simulations are crucial to providing the operating characteristics of the Bayesian design, especially for a complex adaptive design. The 2010 FDA Bayesian guidance for medical device trials addressed both approaches as well as exchangeability, Type I error, and sample size. Treatment response adaptive randomization using the famous extracorporeal membrane oxygenation example is discussed. An interesting real example of a Bayesian analysis using a failed trial with an interesting subgroup as prior information is presented. The implications of the likelihood principle are considered. A recent exciting area using Bayesian hierarchical modeling has been the pediatric extrapolation using adult data in clinical trials. Historical control information from previous trials is an underused area that lends itself easily to Bayesian methods. The future including recent trends, decision theoretic trials, Bayesian benefit-risk, virtual patients, and the appalling lack of penetration of Bayesian clinical trials in the medical literature are discussed.

Data Pattern Estimation with Movement of the Center of Gravity

  • Ahn Tae-Chon;Jang Kyung-Won;Shin Dong-Du;Kang Hak-Soo;Yoon Yang-Woong
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권3호
    • /
    • pp.210-216
    • /
    • 2006
  • In the rule based modeling, data partitioning plays crucial role be cause partitioned sub data set implies particular information of the given data set or system. In this paper, we present an empirical study result of the data pattern estimation to find underlying data patterns of the given data. Presented method performs crisp type clustering with given n number of data samples by means of the sequential agglomerative hierarchical nested model (SAHN). In each sequence, the average value of the sum of all inter-distance between centroid and data point. In the sequel, compute the derivation of the weighted average distance to observe a pattern distribution. For the final step, after overall clustering process is completed, weighted average distance value is applied to estimate range of the number of clusters in given dataset. The proposed estimation method and its result are considered with the use of FCM demo data set in MATLAB fuzzy logic toolbox and Box and Jenkins's gas furnace data.

The effect of missing levels of nesting in multilevel analysis

  • Park, Seho;Chung, Yujin
    • Genomics & Informatics
    • /
    • 제20권3호
    • /
    • pp.34.1-34.11
    • /
    • 2022
  • Multilevel analysis is an appropriate and powerful tool for analyzing hierarchical structure data widely applied from public health to genomic data. In practice, however, we may lose the information on multiple nesting levels in the multilevel analysis since data may fail to capture all levels of hierarchy, or the top or intermediate levels of hierarchy are ignored in the analysis. In this study, we consider a multilevel linear mixed effect model (LMM) with single imputation that can involve all data hierarchy levels in the presence of missing top or intermediate-level clusters. We evaluate and compare the performance of a multilevel LMM with single imputation with other models ignoring the data hierarchy or missing intermediate-level clusters. To this end, we applied a multilevel LMM with single imputation and other models to hierarchically structured cohort data with some intermediate levels missing and to simulated data with various cluster sizes and missing rates of intermediate-level clusters. A thorough simulation study demonstrated that an LMM with single imputation estimates fixed coefficients and variance components of a multilevel model more accurately than other models ignoring data hierarchy or missing clusters in terms of mean squared error and coverage probability. In particular, when models ignoring data hierarchy or missing clusters were applied, the variance components of random effects were overestimated. We observed similar results from the analysis of hierarchically structured cohort data.

산림재적 추정을 위한 계층적 베이지안 분석 (Hierarchical Bayesian analysis for a forest stand volume)

  • 송세리;박주원;김용구
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.29-37
    • /
    • 2017
  • 산림경영 계획을 위한 필요한 산림재적을 보다 효율적으로 추정하기 위해서 다양한 연구가 요구되어져 왔는데, 이러한 산림구조에 관한 연구는 주로 현장조사와 위성영상을 이용하여 이루어진다. 현장조사를 통한 연구는 비교적 정확하나 시간과 비용이 많이 들 뿐 아니라 접근의 용이성이 떨어지는 지역이 있기 때문에, 넓은 지역의 조사가 어렵다는 단점이 있다. 최근에는 항공기에서 발사된 레이저 펄스가 반사되어 돌아오는 시간을 측정하여 대상의 3차원 좌표를 얻는 LiDAR (Light Detection and Ranging) 기술을 활용하여 획득한 정밀한 수치형자료를 이용한 산림의 구조에 관한 연구가 이루어지고 있다. 일반적으로 산림재적을 추정하기 위해서 LiDAR자료를 이용한 수고자료와 산림 재적에 대한 회귀모형의 중요성이 점차 높아지는데, 국내의 경우 수목의 종류와 그 분포가 다르기 때문에 회귀모형만으로 재적을 추정하는 데 한계가 있다. 따라서 본 논문에서는 산림의 수고와 흉고직경을 측정하여 재적값을 추정하고 산림의 공간효과를 고려한 계층적 베이지안 분석을 통해 관측되지 않은 전체 산림재적에 대한 추정을 하고자 한다.

다양한 관측네트워크에서 얻은 공간자료들을 활용한 계층모형 구축 (On the Hierarchical Modeling of Spatial Measurements from Different Station Networks)

  • 최지은;박만식
    • 응용통계연구
    • /
    • 제26권1호
    • /
    • pp.93-109
    • /
    • 2013
  • 지리통계자료는 관측지점이 지도 상에 점으로 표현되고 그 지점에서만 자료가 관측되는 측정값이다. 이러한 지리통계자료는 매우 다양한 관측망에서부터 얻어진다. 지리통계자료를 분석하고 예측함에 있어서 하나의 자료만 이용하는 것보다는 유사한 패턴을 갖는 다른 관측망에서 얻어지는 여러 자료들을 함께 사용한다면 예측력을 향상시킬 수 있을 것이다. 본 논문에서는 서로 다른 관측망에서 얻은 두 가지의 공간자료를 이용하여 분석 및 예측하고 이를 위해 공간적 연관성을 파악할 수 있는 적절한 계층모형을 구축하였다. 그리고 선형회귀모형에 근간을 둔 크리깅 결과와 계층모형 하에서의 결과를 여러 검증방법을 통해 비교하였다. 이 논문에서는 도시대기측정망에서 측정된 이산화황과 지상기상관측망에서 측정된 풍속자료를 이용하여 계층모형을 구축하고 이산화황만을 이용한 선형모형과 비교하였다. 또한 각 모형에 의한 이산화황 예측지도를 구성하였다.

Performance evaluation of principal component analysis for clustering problems

  • Kim, Jae-Hwan;Yang, Tae-Min;Kim, Jung-Tae
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제40권8호
    • /
    • pp.726-732
    • /
    • 2016
  • Clustering analysis is widely used in data mining to classify data into categories on the basis of their similarity. Through the decades, many clustering techniques have been developed, including hierarchical and non-hierarchical algorithms. In gene profiling problems, because of the large number of genes and the complexity of biological networks, dimensionality reduction techniques are critical exploratory tools for clustering analysis of gene expression data. Recently, clustering analysis of applying dimensionality reduction techniques was also proposed. PCA (principal component analysis) is a popular methd of dimensionality reduction techniques for clustering problems. However, previous studies analyzed the performance of PCA for only full data sets. In this paper, to specifically and robustly evaluate the performance of PCA for clustering analysis, we exploit an improved FCBF (fast correlation-based filter) of feature selection methods for supervised clustering data sets, and employ two well-known clustering algorithms: k-means and k-medoids. Computational results from supervised data sets show that the performance of PCA is very poor for large-scale features.

Galaxy Clusters at High Redshift

  • Im, Myungshin
    • 천문학회보
    • /
    • 제40권1호
    • /
    • pp.41.1-41.1
    • /
    • 2015
  • Hierarchical galaxy formation models under LCDM cosmology predict that the most massive structures such as galaxy clusters (M > $10^{14}M_{\odot}$) appear late (z < 1) in the history of the universe through hierarchical clustering of small objects. Galaxy formation is also expected to be accelerated in overdense environments, with the star formation rate-density relation to be established at z ~ 2. In this talk, we present our search of massive structures of galaxies at 0.7 < z < 4, using the data from GOODS survey and our own imaging survey, Infrared Medium-deep Survey (IMS). From these studies, we find that there are excess of massive structures of galaxies at z > 2 in comparison to the Millennium simulation data. At 1 < z < 2, the number density of massive structures is consistent with the simulation data, but the star formation history is more or less identical between field and cluster. The star formation quenching process is dominated by internal process (stellar mass). The environmental effect becomes important only at z < 1, which contributes to create the well known star formation-density relation in the local universe. Our results suggest that galaxy formation models under LCDM cosmology may require further refinements to match the observation.

  • PDF