• 제목/요약/키워드: clustered data

검색결과 551건 처리시간 0.034초

적응 분할과 벡터 근사에 기반한 고차원 이미지 색인 기법 (High-Dimensional Image Indexing based on Adaptive Partitioning ana Vector Approximation)

  • 차광호;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.128-137
    • /
    • 2002
  • 이 논문은 고차원 이미지 데이타의 효율적인 색인을 위한 LCP+-file을 제시한다. 멀티미디어 데이타의 사용이 증가하면서 고차원 이미지 데이타의 색인과 검색의 지원에 대한 요구가 증가하고 있다. 최근에 고차원 데이타의 색인을 위해 벡터 근사에 기반한 LPC-file (5)이 개발되었다. LPC-file은 특히, 데이터 집합이 균일하게 분포할 때는 좋은 성능을 나타내지만 클러스터(cluster)를 이를 때는 성능이 하락한다. 본 논문은 강하게 클러스터를 이루는 이미지 데이타 집합에 대해 LPC-file의 성능을 향상시킨 LCP+-file을 제시한다. 기본 아이디어는 고밀도 클러스터를 갖는 부분 공간을 찾기 위해 데이타 공간을 적응적으로 분할하고, 그 공간에 대해 벡터 근사의 식별 능력을 향상시키기 위해 더 많은 수의 비트를 할당한다. 그러나 분할된 공간이 비트들을 공유하기 때문에 사용되는 전체 비트 수는 오히려 줄어든다. 실험 결과에 따르면 LCP+-file은 강하게 클러스터를 이루는 이미지 데이터 집합에 대해 LPC-file의 성능을 크게 향상시킨다.

정량적 자료에 대한 효과적인 군집화 과정 및 사용 후 핵연료의 분류에의 적용 (An Effective Clustering Procedure for Quantitative Data and Its Application for the Grouping of the Reusable Nuclear Fuel)

  • 강금석;윤복식;이용주
    • 산업공학
    • /
    • 제15권2호
    • /
    • pp.182-188
    • /
    • 2002
  • Clustering is widely used in various fields in order to investigate structural characteristics of the given data. One of the main tasks of clustering is to partition a set of objects into homogeneous groups for the purpose of data reduction. In this paper a simple but computationally efficient clustering procedure is devised and some statistical techniques to validate its clustered results are discussed. In the given procedure, the proper number of clusters and the clustered groups can be determined simultaneously. The whole procedure is applied to a practical clustering problem for the classification of reusable fuels in nuclear power plants.

치의학 분야에서 SPSS를 이용한 일반화 추정방정식의 단계별 안내 (A step-by-step guide to Generalized Estimating Equations using SPSS in dental research)

  • 임회정;박수현
    • 대한치과의사협회지
    • /
    • 제54권11호
    • /
    • pp.850-864
    • /
    • 2016
  • The Generalized Estimating Equations (GEE) approach is a widely used statistical method for analyzing longitudinal data and clustered data in clinical studies. In dentistry, due to multiple outcomes obtained from one patient, the outcomes produced from an individual patient are correlated with one another. This study focused on the basic ideas of GEE and introduced the types of covariance matrix and working correlation matrix. The quasi-likelihood information criterion (QIC) and quasi-likelihood information criterion approximation ($QIC_u$) were used to select the best working correlation matrix and the best fitting model for the correlated outcomes. The purpose of this study is to show a detailed process for the GEE analysis using SPSS software along with an orthodontic miniscrew example, and to help understand how to use GEE analysis in dental research.

  • PDF

Variable Selection in Linear Random Effects Models for Normal Data

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제27권4호
    • /
    • pp.407-420
    • /
    • 1998
  • This paper is concerned with selecting covariates to be included in building linear random effects models designed to analyze clustered response normal data. It is based on a Bayesian approach, intended to propose and develop a procedure that uses probabilistic considerations for selecting premising subsets of covariates. The approach reformulates the linear random effects model in a hierarchical normal and point mass mixture model by introducing a set of latent variables that will be used to identify subset choices. The hierarchical model is flexible to easily accommodate sign constraints in the number of regression coefficients. Utilizing Gibbs sampler, the appropriate posterior probability of each subset of covariates is obtained. Thus, In this procedure, the most promising subset of covariates can be identified as that with highest posterior probability. The procedure is illustrated through a simulation study.

  • PDF

Analyzing Clustered and Interval-Censored Data based on the Semiparametric Frailty Model

  • Kim, Jin-Heum;Kim, Youn-Nam
    • 응용통계연구
    • /
    • 제25권5호
    • /
    • pp.707-718
    • /
    • 2012
  • We propose a semi-parametric model to analyze clustered and interval-censored data; in addition, we plugged-in a gamma frailty to the model to measure the association of members within the same cluster. We propose an estimation procedure based on EM algorithm. Simulation results showed that our estimation procedure may result in unbiased estimates. The standard error is smaller than expected and provides conservative results to estimate the coverage rate; however, this trend gradually disappeared as the number of members in the same cluster increased. In addition, our proposed method was illustrated with data taken from diabetic retinopathy studies to evaluate the effectiveness of laser photocoagulation in delaying or preventing the onset of blindness in individuals with diabetic retinopathy.

공간자기상관 지수와 Pearson 상관계수를 이용한 마산만 수질의 공간분포 패턴 규명 (Identifying Spatial Distribution Pattern of Water Quality in Masan Bay Using Spatial Autocorrelation Index and Pearson's r)

  • 최현우;박재문;김현욱;김영옥
    • Ocean and Polar Research
    • /
    • 제29권4호
    • /
    • pp.391-400
    • /
    • 2007
  • To identify the spatial distribution pattern of water quality in Masan Bay, Pearson's correlation as a common statistic method and Moran's I as a spatial autocorrelation statistics were applied to the hydrological data seasonally collected from Masan Bay for two years ($2004{\sim}2005$). Spatial distribution of salinity, DO and silicate among the hydrological parameters clustered strongly while chlorophyll a distribution displayed a weak clustering. When the similarity matrix of Moran's I was compared with correlation matrix of Pearson's r, only the relationships of temperature vs. salinity, temperature vs. silicate and silicate vs. total inorganic nitrogen showed significant correlation and similarity of spatial clustered pattern. Considering Pearson's correlation and the spatial autocorrelation results, water quality distribution patterns of Masan Bay were conceptually simplified into four types. Based on the simplified types, Moran's I and Pearson's r were compared respectively with spatial distribution maps on salinity and silicate with a strong clustered pattern, and with chlorophyll a having no clustered pattern. According to these test results, spatial distribution of the water quality in Masan Bay could be summed up in four patterns. This summation should be developed as spatial index to be linked with pollutant and ecological indicators for coastal health assessment.

분산된 VLIW 구조에서의 최대 전력 최소화 방법 (Peak Power Minimization for Clustered VLIW Architectures)

  • 서재원;김태환;정기석
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권5_6호
    • /
    • pp.258-264
    • /
    • 2003
  • VLIW 구조는 다량의 데이터를 처리하는 멀티미디어 애플리케이션에 매우 적합한 구조로서, 이 같은 종류의 애플리케이션에 대해 높은 수준의 병렬 처리를 가능케 한다. 이러한 병렬성을 더욱 증대 시키기 위하여 시스템을 확장하는 경우에 있어, 분산된 VLIW 구조는 그렇지 않은 구조에 비해 큰 강점을 갖는다. 하지만 여러 개의 분산된 클러스터를 하나의 구조 속에 포함하는 것은 필연적으로 적지 않은 양의 하드웨어를 요구하고, 이로 말미암아 전체 시스템에서 소모되는 전력 문제가 중요한 이슈로 대두된다. 본 논문에서는 분산된 VLIW 구조에서 전체 시스템의 성능 제한 조건을 만족시키는 동시에 최대 전력 소모량을 줄이는 효과적인 알고리즘을 제시한다. 일련의 실험을 통해 제시된 알고리즘이 최대 30.7%의 최대 전력 소모 감소 효과를 얻을 수 있음이 확인되었다.

군집화된 구간 중도절단자료에 대한 치유율 모형의 적용 (Cure Rate Model with Clustered Interval Censored Data)

  • 김양진
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.21-30
    • /
    • 2014
  • 치유율 모형(cure rate model)은 위험 그룹의 단조 감소에 대한 가정이 부적절한 경우에 적용될 수 있다. 예를 들어, 생존 분석에서 위험 그룹은 시간이 경과함에 따라 점점 감소하여 무한대의 시간대에는 영으로 수렴하며 이는 곧 생존 함수가 영으로 수렴함을 의미한다. 하지만 이러한 가정이 적합하지 못한 자료가 의약학, 사회학, 경제학 등에서 종종 발생된다. 즉, 어느 시점에 이르러 더 이상의 생존함수는 감소하지 않고 평행선을 보여주는 경우에 로그 순위검정(log rank test)과 Cox's 비례위험모형(proportional hazard model)의 적용은 바람직하지 못한 결론을 가져오게 된다. 이러한 자료에 대해 치유율 모형(cure rate model)에서는 사건 발생 취약 그룹(susceptible group)과 비취약 그룹(insusceptible group)으로 나누어 취약그룹에 대해서만 일반적인 생존 분석 방법을 적용하는 혼합 모형(mixture model)을 적용해왔다 (Berkson과 Gage, 1952). 본 연구에서는 이러한 치유율 모형을 군집화 구간 중도 절단 자료(clustered interval censored data)에 적용해 보고자 한다. 최근에 Kim과 Jhun (2008)은 구간 중도 절단자료에 대해 치유율 모형을 적용하였으며 본 연구에서는 그들의 방법을 군집화 자료로 확장할 것이다. 실제 자료 분석의 예로 금연자료를 분석할 것이다.

A GEE approach for the semiparametric accelerated lifetime model with multivariate interval-censored data

  • Maru Kim;Sangbum Choi
    • Communications for Statistical Applications and Methods
    • /
    • 제30권4호
    • /
    • pp.389-402
    • /
    • 2023
  • Multivariate or clustered failure time data often occur in many medical, epidemiological, and socio-economic studies when survival data are collected from several research centers. If the data are periodically observed as in a longitudinal study, survival times are often subject to various types of interval-censoring, creating multivariate interval-censored data. Then, the event times of interest may be correlated among individuals who come from the same cluster. In this article, we propose a unified linear regression method for analyzing multivariate interval-censored data. We consider a semiparametric multivariate accelerated failure time model as a statistical analysis tool and develop a generalized Buckley-James method to make inferences by imputing interval-censored observations with their conditional mean values. Since the study population consists of several heterogeneous clusters, where the subjects in the same cluster may be related, we propose a generalized estimating equations approach to accommodate potential dependence in clusters. Our simulation results confirm that the proposed estimator is robust to misspecification of working covariance matrix and statistical efficiency can increase when the working covariance structure is close to the truth. The proposed method is applied to the dataset from a diabetic retinopathy study.

최대 중첩구간을 이용한 새로운 GPS 궤적 클러스터링 (A new Clustering Algorithm for GPS Trajectories with Maximum Overlap Interval)

  • 김태용;박보국;박진관;조환규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권9호
    • /
    • pp.419-425
    • /
    • 2016
  • 내비게이션 시스템에서 지도 데이터를 최신 정보로 유지하는 것은 중요한 일이다. 그러나 수작업을 통한 갱신은 비용이 많이 소요될 뿐만 아니라 갱신되는 정보를 즉각적으로 반영하기 힘들다. 본 논문에서는 GPS 데이터를 이용하여 자동으로 도로를 생성해주는 시스템에서 가장 중요한 문제 중 하나인 중심 도로를 추출하는 기법에 관하여 살펴보고자 한다. 중심도로를 추출하기 위해서는 클러스터링 시킨 궤적이 필요하지만, 실제 궤적은 클러스터링 되어있지 않다. 이 문제를 해결하기 위하여 본 논문에서는 최대 중첩구간 탐색과 궤적 클러스터링 과정을 통하여 효과적으로 궤적에 대해 클러스터링 하는 기법을 제안한다. 마지막으로 클러스터링 시킨 궤적에 대하여 가상달리기 기법을 적용하여 중심도로를 추출하였다. 실험 데이터로는 실제 대용량의 강남구, 성남시, 서울시 전체를 지나다니는 택시 GPS 데이터를 수집하여 실험을 하였고, 실험 결과 제안기법이 실제 중심 도로를 추출하는데 안정적이고 효율적인 것을 보였다.