Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
Domain
- Mathematics > Models/Data analysis
2002.05a
-
We consider the problem of optimal bandwidth choice for nonparametric classification, based on kernel density estimators, where the problem of interest is distinguishing between two univariate distributions. When the densities intersect at a single point, optimal bandwidth choice depends on curvatures of the densities at that point. The problem of empirical bandwidth selection and classifying data in the tails of a distribution are also addressed.
-
경제활동인구조사에서 시군구의 실업자를 추정하는데 소지역 추정법을 이용하는 방안에 대한 연구는 관심의 대상이 되고 있다. 본 연구에서는 합성 추정법과 복합 추정법을 이용한 시군구 실업통계 작성법을 소개하였고 추정량이 편향이므로 잭나이프 방법을 이용한 추정량의 정도를 계산하는 절차를 설명하였으며, 광주광역시의 구별 실업통계작성을 사례로 제시하였다.
-
이중추출(two-phase)접근방법 이용의 주목적은 관심변수와 보조변수사이의 관계를 이용해서 더 좋은 추정을 하고자 하는 것이다. 특히 이 방법은 층화, 무응답 문제에 적용하는 경우 상당히 효과적이다. 본 논문에서는 무시할 수 있는 무응답이 발생했을 때 이중추출기법을 이용해서 g-가중치와 응답확률을 각 단계별로 조정해줌으로써 무응답 보정추정량과 분산추정량을 구했다.
-
The two-way balanced one-level rotation design has been discussed (Park, Kim and Choi, 2001), where the two-way balancing is done on interview time in monthly sample and rotation group. We extend it to three-way balanced multi-level design under the most general rotation system. The three-way balancing is accomplished on interview time not only in monthly sample and rotation group but also in recall time. We present the necessary condition and rotation algorithm which guarantee the three-way balancing. We propose multi-level composite estimators (MCE) from this design and derive their variances and mean squared errors (MSE), assuming the correlation from the measurements of the same sample unit and three types of biases in monthly sample.
-
비선형모형분석의 초기 단계에서 초기값(starting value, initial parameter value)를 결정하는 문제는 비선형모형의 모수추정을 위한 반복기법의 수렴속도나 국소값(local minimum)문제에 영향을 주게 된다. 본 논문을 통하여 탐색적 자료분석이 초기값를 결정하는 데 도움을 줄 수 있음을 보이고자 한다.
-
$p=(p_{}1,p_{2},{\cdots},p_{k})^{T}$ 의 확률벡터를 가진 다항분포로부터 관측된 칸 돗수(cell frequency) 벡터가$N=(N_{1},N_{2},{\cdots},N_{k})^{T}$ 이며${\sum}{\limits}_{j=1}^{k}N_{j}=n$ 이라 하자. 총돗수 n이 칸의 총갯수 k에 비하여 상대적으로 매우 작을 때 이러한 이산형 자료를 희박다항분포자료(sparse multinomial data)라 한다. 이러한 희박다항분포자료의 칸들이 순서화 되어 있을 때 우리는 i번째 칸의 확률$p_{i}$ 를 돗수 추정량$N_{j}/n$ 들을 평활함으로써 추정 할 수 있다. Aerts, et al.(1997)과 Baek(1998) 등에 의해 제안된 국소최소제곱기준에 근거한 국소다항커널추정량은 희박점근일치성의 좋은 성질을 가짐에도 불구하고 확률추정지가 음수값을 가질 수 있는 단점을 내포하고 있다. 본 연구에서는 이러한 단점을 극복하기 위하여 국소최대우도 기준에 근거한 새로운 커널추정량을 제안하고, 그것의 점근적 성질을 연구하였다. -
컴퓨터 및 네트워크 기술의 발전은 대학 교육에도 많은 변화를 가져오고 있다. 본 연구에서는 웹/멀티미디어를 통한 통계교육용 통합 소프트웨어 iSTAT을 소개한다. 이 소프트웨어는 통계 초보자들을 위한 교육의 일환으로 전통적인 강의 동영상과 전자책(e-book)을 포함하고 있고, 아울러 복잡한 통계이론의 이해를 돕기 위해 고안된 통계강의 보조시스템 CATS와 통계자료분석 실습용 통계패키지 S-Link, 그리고 배운 이론에 대한 평가 모듈이 있다. 이밖에도 관련 이론에 대한 유용한 웹사이트에 링크를 할 수 있다. 이 종합 시스템을 초보자에게 제공함으로서 통계라는 학문을 보다 쉽고 실제 응용이 가능한 학문으로 보급되기를 기대한다.
-
통계학 및 실습 교과목의 원격학습에 필요한 제반요소의 구현방법, 특히 ASP와 웹-메일을 활용한 패키지 실습의 원격 운영에 대하여 설명한다.
-
Consider the mean distance of Brownian motion on Riemannian manifolds. We obtain the first three terms of the asymptotic expansion of the mean distance by means of Stochastic Differential Equation(SDE) for Brownian motion on Riemannian manifold. This method proves to be much simpler for further expansion than the methods developed by Liao and Zheng(1995). Our expansion gives the same characterizations as the mean exit time from a small geodesic ball with regard to Euclidean space and the rank 1 symmetric spaces.
-
For arbitrary random variables {
$X_{n},n{\geq}1$ }, the order of growth of the series.$S_{n}\;=\;{\sum}_{j=1}^n\;X_{j}$ is studied in this paper. More specifically, when the seriesS_{n}$ diverges almost surely, the strong law of large numbers$S_{n}/g_{n}^{-1}$ ($A_{n}{\psi}(A_{n}))\;{\rightarrow}\;0$ a.s. is constructed by extending the results of Petrov (1973). On the other hand, if the series$S_{n}$ converges almost surely to a random variable S, then the tail series$T_{n}\;=\;S\;-\;S_{n-1}\;=\;{\sum}_{j=n}^{\infty}\;X_{j}$ is a well-defined sequence of random variables and converges to 0 almost surely. For the almost surely convergent series$S_{n}$ , a tail series strong law of large numbers$T_{n}/g_{n}^{-1}(B_{n}{\psi}^{\ast}(B_{n}^{-1}))\;{\rightarrow}\;0$ a.s., which generalizes the result of Klesov (1984), is also established by investigating the duality between the limiting behavior of partial sums and that of tail series. In particular, an example is provided showing that the current work can prevail despite the fact that previous tail series strong law of large numbers does not work. -
We present an extension of the Wong-Zakai type approximation theorem for a multiple stochastic integral. Using a piecewise linear approximation
$W^{(n)}$ of a Wiener process W, we prove that the multiple integral processes {${\int}_{0}^{t}{\cdots}{\int}_{0}^{t}f(t_{1},{\cdots},t_{m})W^{(n)}(t_{1}){\cdots}W^{(n)}(t_{m}),t{\in}[0,T]$ } where f is a given symmetric function in the space$C([0,T]^{m})$ , converge to the multiple Stratonovich integral of f in the uniform$L^{2}$ -sense. -
We consider a generalized N-policy for an M/M/1 queueing system. The idle server starts to work with ordinary service rate when a customer arrives. If the number of customers in the system reaches N, the service rate gets faster and continues until the system becomes empty. Otherwise, the server finishes the busy period with ordinary service rate. We obtain the limiting distribution of the number of customers in the system. After assigning various operating costs to the system, we show that there exists a unique fast service rate minimizing the long-run average cost per unit time.
-
A Bayesian testing procedure is proposed for assessment of bioequivalence in both mean and variance which ensures population bioequivalence under normality assumption. We derive the joint posterior distribution of the means and variances in a standard 2
${\times}$ 2 crossover experimental design and propose a Bayesian testing procedure for bioequivalence based on a Markov chain Monte Carlo methods. The proposed method is applied to a real data set. -
In this paper we develop a method for constructing a Bayesian HPD (highest probability density) interval of a ratio of two multivariate normal generalized variances. The method gives a way of comparing two multivariate populations in terms of their dispersion or spread, because the generalized variance is a scalar measure of the overall multivariate scatter. Fully parametric frequentist approaches for the interval is intractable and thus a Bayesian HPD(highest probability densith) interval is pursued using a variant of weighted Monte Carlo (WMC) sampling based approach introduced by Chen and Shao(1999). Necessary theory involved in the method and computation is provided.
-
Since its introduction in 1995 by Schena et al. cDNA microarrays have been established as a potential tool for high-throughput analysis which allows the global monitoring of expression levels for thousands of genes simultaneously. One of the characteristics of the cDNA microarray data is that there is inherent noise even after the removal of systematic effects in the experiment. Therefore, replication is crucial to the microarray experiment. The assessment of reproducibility among replicates, however, has drawn little attention. Reproducibility may be assessed with several different endpoints along the process of data reduction of the microarray data. We define the reproducibility to be the degree with which replicate arrays duplicate each other. The aim of this note is to develop a novel measure of reproducibility among replicates in the cDNA microarray experiment based on the unprocessed data. Suppose we have p genes and n replicates in a microarray experiment. We first develop a measure of reproducibility between two replicates and generalize this concept for a measure of reproducibility of one replicate against the remaining n-1 replicates. We used the rank of the outcome variable and employed the concept of a measure of tracking in the blood pressure literature. We applied the reproducibility measure to two sets of microarray experiments in which one experiment was performed in a more homogeneous environment, resulting in validation of this novel method. The operational interpretation of this measure is clearer than Pearson's correlation coefficient which might be used as a crude measure of reproducibility of two replicates.
-
Microarray technology allows the monitoring of expression levels for thousands of genes simultaneously. In time-course experiments in which gene expression is monitored over time we are interested in testing gene expression profiles for different experimental groups. We propose a statistical test based on the ANOVA model to identify genes that have different gene expression profiles among experimental groups in time-course experiments. Using this test, we can detect genes that have different gene expression profiles among experimental groups. The proposed model is illustrated using cDNA microarrays of 3,840 genes obtained in an experiment to search for changes in gene expression profiles during neuronal differentiation of cortical stem cells.
-
최근의 생물학 연구를 위한 기기의 자동화 및 고속화는 생물학 관련 정보량의 급증을 가져오고 있다. 예를 들어, DNA chip에서 얻어지는 마이크로어레이(microarray)는 수천 종류의 유전자의 발현량을 동시에 측정한다. 이러한 기술들은 생물의 세포나 조직에서 일어나는 일련의 다양한 현상을 전체적으로 조망하는 관점에서 관찰할 수 있는 기회를 제공하고 있으며, 이를 통한 생명공학의 전반적인 발전이 기대되고 있다. 따라서 대량의 생물학 관련 정보의 분석이나 데이터 마이닝이 행해지고 있으며 이를 위한 대표적인 기법들로는 각종 클러스터링(clustering) 및 신경망 계열의 모델 등이 있다. 본 논문에서는 확률그래프모델의 하나인 베이지안망(Bayesian network)을 생물정보분석에 이용한다. 구체적으로 유전자 발현패턴과 약물의 활성패턴 및 암 종류 사이의 확률적 관계를 모델링한다. 이러한 모델은 NCI60 dataset(http://discover.nci.nih.gov)에서 베이지안망을 학습함으로써 구성된다. 분석의 대상이 되는 데이터가 sparse하기 때문에 발생하는 어려움들을 해결하기 위한 기법들이 제시되며 학습된 모델에 대한 검증은 이미 생물학적으로 확인되어 있는 사실과의 비교를 통해 이루어진다. 학습된 베이지안망 모델은 각각의 유전자 간, 혹은 유전자와 처리된 약물 간의 실제 생물학적 관계를 다수 표현하며, 이는 제시되는 방법이 생물학적으로 유의미한 가설을 데이터 분석을 통해 효율적으로 생성하는데 유용하게 활용될 수 있음을 보인다.
-
cDNA 마이크로어레이자료를 이용한 분류방법은 수많은 유전자의 발현을 동시에 모니터링 할 수 있으므로 특정 질병간의 분자생물학적 변이를 이해하는데 있어 기존의 분류방법보다 신뢰성이 훨씬 높을 것으로 기대되고 있다 최근에 Dudoit et al.(2001)은 cDNA 마이크로어레이를 이용한 유전자발현자료의 분석에 있어 분류를 위한 여러 고전적인 판별분류기법 및 최근에 개발된 기법들을 비교, 평가하였다. 본 논문에서는 Dudoit et al.(2001)에서 다루지 않았던 많은 최신 기법들을 포함하여 인간의 종양 자료뿐만이 아니라 농작물을 포함한 동식물 자료에 적용하여 보다 폭넓은 비교연구를 하였다.
-
얼굴인식 기술은 접촉에 대한 거부감이나 불편함이 없이 친숙하고 편리하게 사용자를 식별하고 인식할 수 있으며, 부가적인 센서 장비가 필요없다는 측면에서 개인 인증 및 보안 시스템으로서의 활용성이 매우 높다. 본 논문에서는 여러 가지 장점들을 지닌 얼굴 인식 시스템의 구현 사례를 실시간 얼굴 검출 기술과 특징 추출 기술, 인식 기술로 구분하여 소개한다. 개발된 시스템은 얼굴 검출을 위해서 색상과 에지 성분을 이용하는 복합 알고리즘을 적응하여 실시간 얼굴 탐지를 가능하게 하였고, 추출된 사용자의 고유 얼굴 정보는 최신 인식 기법의 하나인 Support Vector Machine으로 분류, 인식된다. 또한 시스템의 성능을 테스트하고, 실용화 가능성을 모색하기 위하여 하드웨어 임베디드 시스템의 설계 및 구현과정과 조명 및 환경 변화에 따른 시스템의 성능 변화를 객관적으로 검증하기 위하여 다양한 변화 조건을 고려한 한국인 표준 얼굴 데이터베이스를 구축 과정을 소개한다.
-
본 논문에서는 한글 문자의 세리프(serif) 계열과 산세리프(sans-serif) 계열의 분류를 위한 특징을 제안한다. 한글의 서체는 세로획의 시작 부분에 장식 세리프(돌기)가 있는 세리프 계열과 그렇지 않은 산세리프 계열로 나눌 수 있다. 제안하는 한글 문자의 서체 분류 방법은 세리프 형태에서 추출한 특징을 이용하여 세리프 또는 산세리프 클래스로 분류하고, 각 클래스별로 적합한 특징 및 분류기를 학습하여 보다 다양한 서체를 인식하도록 계층적으로 설계한다. 제안한 특징의 유용성을 입증하기 위한 실험은 명조, 바탕, 궁서, 고딕, 돋움, 굴림 서체의 3,000개 낱자 영상에 적용하였다.
-
우리는 본 논문에서 디지털 영상에 대하여 Hash함수를 이용한 내용기반의 안전한 워터마킹 인증기술을 제시하려고 한다. 허가되지 않는 이미지의 내용변경을 막기 위해 안전한 워터마킹 시스템을 개발하기 위하여 비밀키를 가지고 있는 Hash 함수가 사용되었고, 각 블록의 워터마크신호는 Hash함수의 출력결과를 Seed로 사용하여 의사난수를 발생시킨 값에 따라 생성되어진다. 이미지 기술벡터들은 블록기반 에지 이미지로부터 측정되는데 이 값들은 해롭지 않는 조작 등에 대해서는 쉽게 변화하지 않지만 고의적인 내용변경 등의 조작에 대해서는 이들 값들이 바꾸어지는 성질을 갖고 있다. 워터마크신호의 삽입은 블록기반 스펙트럼 방법에 기초를 두고 있으며 워터마크신호의 크기는 인지성과 강인성이 조화를 이루도록 AC 부 밴드의 지그재그 스캔라인의 DCT 계수들의 지역적인 통계량에 따라 조정되어진다. 또한 저작권인증의 확인을 위한 경계 값의 선택은 통계학적으로 분석되어진다. 수치적인 실험의 결과는 제안된 기술이 강력한 저작권인증의 수행을 위해서 매우 효율적인 것을 보여주고 있다.
-
절단된 정규분포의 평균과 분산을 추정하기 위하여 전체 표본에 기초한 최대가능도 추정량을 사용한 방법과 절단된 후에 남아있는 표본만을 고려한 절단된 표본의 표본평균과 표본분산을 시뮬레이션을 통해 비교 연구하였다. 평균을 추정하는 경우에는 놀랍게도 절단된 자료에 기초한 추정량이 전체 표본에 기초한 추정량보다 평균제곱오차가 더 작다는 것을 발견하였다.
-
A powerful and easily computed goodness-of-fit test for Pareto distribution which does not depend on the unknown location and scale parameters is proposed based on the transformed sample Lorenz curve. We compare the power of the proposed test statistic with the other goodness-of-fit tests for Pareto distribution against various alternatives through Monte Carlo methods.
-
계절변동조정방법인 X-12-ARIMA방법을 이용할 때에는 우리 실정에 적합한 옵션을 선택하고, 우리만에 특수한 명절과 조업일수영향을 사전에 조정해야한다. 본고에서는 명절과 조업일수영향을 측정하는 모형을 설정하고, 이것으로 추정된 사전조정요인을 원계열에서 제거했을 때 계절변동 및 계절변동조정계열의 안정성이 향상되었는가를 진단하고, 분류별로 적합한 X-12-ARIMA방법의 옵션을 제안하였다.
-
시계열 자료의 분석에서 분산이 일정하지 않을 경우 이에 대한 해결방법으로 변환이 사용된다. 그러나 이러한 변환은 분산을 안정화시킴으로서 추정 및 검정에 타당성을 주는 반면 새로운 편의를 생성하거나(Granger & Newbold,1976) 모형을 복잡하게 만듦으로써 해석의 어려움도 수반한다. 신과 강(2001)은 평균이 크고 그에 비해 분산이 작을 경우 Box-Cox 멱 변환이 시계열 자료에 대하여 별 영향을 미치지 않음을 연구하였다. 본 논문은 이에 대한 확장으로 공간자료에서도 이 이론이 성립함을 밝혔다.
-
직교성은 실험계획에서 중요한 성질이다. 직교계획을 이용할 수 없는 경우 우리는 이러한 근사직교배열에 대하여 직교성의 정도를 평가할 수 있는 측도가 필요하다. 본 논문에서 는 근사직교배열에 대하여 직교성의 정도를 평가할 수 있는 그래픽방법들을 제안하고자 한다.
-
Sometimes we have two groups of inbred lines and there are only interest in gca comparisons within group(
$p_{1}$ ) and group($p_{2}$ ) and not between two groups. For example, suppose there two Lab, each of the 2 Labs have obtained the best lines. For this purpose we now give a method of constructing block designs for diallel cross experiments and we will explain how to calculate efficiency. Then we show the efficiencies in the table. -
In this paper, diallel crosses block designs for control versus test comparisons among the lines are proposed. These designs are constructed by using partially balanced incomplete block designs with C-properties. Also, the efficiencies of the diallel crosses block designs obtained through this method are tabulated for number of lines 24 or less.
-
cDNA microarray experiments permit us to investigate the expression levels of thousands of genes simultaneously and to make it easy to compare gene expression from different populations. However, researchers are asked to be cautious in interpreting the results because of the unexpected sources of variation such as systematic errors from the microarrayer and the difference of cDNA dye intensity. And the scanner itself calculates both of mean and median of the signal and background pixels, so it follows a selection which raw data will be used in analysis. In this paper, we compare the results in each case of using mean and median from the raw data and normalization methods in reducing the systematic errors with arm's skin cells of old and young males. Using median is preferable to mean because the distribution of the test statistic (t-statistic) from the median is more close to normal distribution than that from mean. Scaled print tip normalization is better than global or lowess normalization due to the distribution of the test-statistic.
-
Multiple imputation, proposed by Rubin, is a procedure for handling missing data. One of the attractive parts of multiple imputation is the simplicity of the variance estimation formula. Because of the simplicity, it has been often abused and misused beyond its original prescription. This paper provides the bias of the multiple imputation variance estimator for a linear point estimator and discusses when the bias can be safely neglected.