Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
Domain
- Mathematics > Models/Data analysis
2003.05a
-
인공위성을 이용한 원격탐사가 일반화되어 있는 선진국의 경우 인공위성의 관측자료를 이용한 여러 가지 분야의 연구가 활발하게 이루어지고 있다. 이러한 국제적 경향은 결과적으로 원격탐사정보와 지리정보시스템 기술의 가져오게 되는 계기가 되었다. 이로 인해 환경조사 및 자원탐사, 홍수, 가뭄, 쓰레기 처리, 농업 식량예측, 사막화 해양오염 등 여러 가지 응용 분야에 유용하게 사용되고 있다. 에쉬론 해석법(Myers et. al., 1997)은 이러한 원격탐사에 의해 얻은 각종 공간 데이터 해석을 위해 개발된 것으로, 공간데이터의 위상적 구조를 계통적이고 객관적으로 발견하기 위한 해석법이다. 본 연구에서는 한국의 시
${\cdot}$ 도별 인구 데이터에 본 해석법을 적용해 본다. -
문항반응이론(IRT)에서 문항특성곡선(ICC)의 모수를 추정하는 경우에 발생되는 초기값(initial value) 문제를 비선형 로지스틱모형을 선형 회귀모형으로 근사화하여 해결하고자 하였다. 특히, 신규 또는 잡음이 섞인(local fluctuation) 문항의 직접적인 평가와 소규모집단별 검사가 이루어질 수 있는 현실적 문제에서 모수추정의 대안으로서 그 의의가 있을 수 있다.
-
본 논문에서는 낮은 대역폭, 높은 지연, 그리고 잦은 네트워크 단절로 인한 모바일 컴퓨팅 환경의 문제점들을 해결하기 위한 효과적인 캐시 적재 기법으로서 협업 추천 기반의 데이터 마이닝 전략을 제안하였다. 캐시 적재가 모바일 클라이언트의 이러한 문제점들을 해결하기 위한 효율적인 방법이 된다는 기존의 연구는 많이 진행되어 왔다. 하지만 모바일 컴퓨터의 요구에 대한 이력 정보만을 이용한 기존의 연구는 모바일 클라이언트가 필요로 하는 모든 정보 요구를 만족하지 못하였다. 특히 저장 공간의 제약을 갖는 모바일 컴퓨터의 한계 때문에 더욱 큰 어려움을 갖게 되었다. 본 연구에서는 모바일 클라이언트의 이력 정보에 대하여 데이터 마이닝 기법을 적용한 캐시 적재 기법을 제안하여 적은 캐시 용량만으로도 모바일 클라이언트의 요구를 만족할 수 있는 아이템들을 효과적으로 서비스할 수 있도록 하였다. CSIM Simulator를 이용하여 모의 데이터를 생성하여, 제안 모형의 성능 평가를 위한 실험을 수행하였다. Cache hit ratio를 이용한 객관적인 성능 평가를 통하여 제안된 모형이 모바일 클라이언트의 캐시 적재 기법으로서 우수한 성능을 보임이 확인되었다.
-
신경망은 적용 다양성과 제약조건의 최소성, 강력한 예측성, 범용성, 근사성 등 많은 장점을 지니고 있으나 초기 가중치의 할당에 따라 모델 생성의 Performance와 예측의 결과가 달라지게 되는 단점을 지니고 있다. 이런 신경망의 초기 가중치에 따른 단점을 보안하기 위해 통계적 알고리즘의 접목을 통해 Hybrid된 신경망 보완 알고리즘을 제시하고자 하였다. 논문을 위한 기본 가정으로 신경망의 가장 기본인 SLP 알고리즘을 바탕으로 활성함수에 가장 일반적으로 사용되는 Sigmoid 활성함수를 이용하였을 때, 초기 가중치로 기존의 임의 난수 생성 방식이 아닌 통계적 로지스틱 회귀분석의 계수값(mle)을 제시하여 이를 초기치로 사용한 경우와 그렇지 않은 경우의 예측 정확성과 수렴의 Performance정도를 비교하여 가장 효과적인 초기치 방법을 제시하고자 하였다.
-
We prove that the logarithm of the flow of stochastic differential equations is an element of the free Lie algebra generated by a finite set consisting of vector fields being coefficients of equations. As an application, we directly obtain a formula of the solution of stochastic differential equations given by Castell(1993) without appealing to an expansion for ordinary differential equations given by Strichartz (1987).
-
Using a short time expansion of the fundamental solution of heat equation by analysis of Wiener functional with the help of Malliavin calculus, we obtain the asymptotic expansion of the mean distance of Brownian motion on Riemannian manifolds.
-
We study the asymptotic expansion in small time of the mean distance of Brownian motion on Riemannian manifolds. We compute the first four terms of the asymptotic expansion of the mean distance by using the decomposition of Laplacian into homogeneous components. This expansion can he expressed in terms of the scalar valued curvature invariants of order 2, 4, 6.
-
We consider a consumption and investment problem where an investor's investment opportunity gets enlarged when she becomes rich enough, i.e., when her wealth touches a critical level. We derive optimal consumption and investment rules assuming that the investor has a time-separable von Neumann-Morgenstern utility function. An interesting feature of optimal rules is that the investor consumes less and takes more risk in risky assets if the investor expects that she will have a better investment opportunity when her wealth reaches a critical level.
-
학원
${\cdot}$ 연구소${\cdot}$ 회사${\cdot}$ 정부기관 등에서 실시하는 통계교육은 사회교육 또는 성인교육이라고 명명할 수 있다. 성인의 통계교육은 다른 통계교육과는 차이점이 있다. 본고에서는 국가전문행정연수원 통계연수부에서 실시하는 교육을 중심으로 교육훈련 현황을 살펴본다. 특히 통계성인교육과 대학교육의 차이점에 관점을 맞추어 의견을 개진해본다. -
신라촌장적은 당시의 경제사회상을 조명하는 데 있어 매우 귀중한 사료로 여겨지고 있다. 이 문서를 기록한 내용의 정확성과 방법의 정연성은 오늘날의 각종 조사보다 더욱 뛰어난 것으로 생각된다. 본 연구에서는 인구에 관한 통계수치를 중심으로 현대적 의미의 통계량을 추정해 보고자 하였다.
-
도시가구의 지출 중 집세가 차지하는 비율이 높으며 그 변동에 따라 도시가구의 생활에 미치는 영향도 커서 중요한 통계자료로 인식되고 있다. 집세 계약기간이 통상 2년 단위이기 때문에 집세변동의 발생빈도가 적어서 이러한 소표본 군의 통계단위로 일반적인 집세지수를 작성하는데는 많은 어려움이 따른다. 그렇다고 해서 소표본 군의 표본을 확대하는 것도 어렵기 때문에 이러한 산술적인 표본확대가 어려운 소표본 군의 문제점을 해결하기 위해 소지역 추정법을 도입하였다. 이러한 소표본 통계단위에서의 집세 변동률 추정방법을 경기도 지역의 6개 도시에서의 집세변동을 추정하는데 적용하였으며 검토해 보았다.
-
The estimation of pest density is a prime concern of Integrated Pest Management (IPM) because the success of artificial intervention such as spraying pestcides or natural enemies depends on pest density. Also, the spatial pattern of pest population within plants or plots has been studies in various ways. In this study, we applied generalized linear mixed model to Tetranychus urticae Koch , two-spotted spider mite count in glasshouse grown roses. For this analysis, the subject-specific as well as pupulation-averaged approaches are used.
-
Those who are interested in making inferences concerning linear combination of variance components in a simple linear regression model with unbalanced nested error structure can use the confidence intervals proposed in this paper. Two approximate confidence intervals for the sum of two variance components in the model are proposed. Simulation study is peformed to compare the methods.
-
Likelihood estimation in random-effect models is often complicated because the marginal likelihood involves an analytically intractable integral. Numerical integration such as Gauss-Hermite quadrature is an option, but is generally not recommended when the dimensionality of the integral is high. An alternative is the use of hierarchical likelihood, which avoids such burdensome numerical integration. These two approaches for fitting binary data are compared and the advantages of using the hierarchical likelihood are discussed. Random-effect models for binary outcomes and for bivariate binary-continuous outcomes are considered.
-
In this paper we develop a method for finding optimal ordering of K statistical models. This is based on a dependent paired comparison experimental arrangement whose results can naturally be represented by a completely oriented graph (also so called tournament graph). Introducing preference probabilities, strong transitivity conditions, and an optimal criterion to the graph, we show that a Hamiltonian path obtained from row sum ranking is the optimal ordering. Necessary theories involved in the method and computation are provided. As an application of the method, generalized variances of K multivariate normal populations are compared by a Bayesian approach.
-
연관규칙은 데이터베이스에 잠재되어 있는 유용한 정보를 탐사하는 방법으로 데이터마이닝의 한 분야이다. 이는 항목의 발생유무만을 고려하는 이진연관규칙에 대한 연구가 주였으나, 최근에는 항목의 수량까지 고려하는 수량연관규칙 탐사가 소개되고 있다. 수량연관규칙은 수량속성 항목을 임의의 방법으로 여러 개의 소구간 항목으로 분할한 후, 각각을 이진항목으로 취급하여 연관규칙을 탐사하는 방법이다. 본 논문에서는 분할된 여러 소구간 분할항목들 중에서 필요 소구간 항목만을 선택적으로 탐사하는 방법을 제안한다. 제안방법은 블린항목제약식을 사용하여 수량항목의 탐사범위를 제한함으로써 모든 분할을 탐사하지 않고 필요 소구간만을 탐사하기 때문에 탐사시간을 단축할 수 있다.
-
데이터 마이닝의 여러 기법중 모형의 변동성을 줄이고 정확도가 높은 분류자를 형성하기 위하여 다양한 앙상블 기법이 연구되고 있다. 그 중에서 배깅과 부스팅 방법이 가장 널리 알려져 있다. 여러 가지 데이터에 이 두 방법을 적용하여 오분류율을 구하여 비교한 후 각 데이터 특성을 입력변수로 하고 배깅과 부스팅 중 더 낮은 오분류율을 갖는 알고리즘을 목표변수로 하여 의사결정나무를 형성하였다. 이를 통해서 배깅과 부스팅 알고리즘이 어떠한 데이터 특성의 패턴이 존재하는지 분석한 결과 부스팅 알고리즘은 관측치, 입력변수, 목표변수 수가 큰 것이 적합하고 반면에 배깅 알고리즘은 관측치, 입력변수, 목표변수 수의크기가 작은 것이 적합함을 알 수 있었다.
-
데이터마이닝을 위한 대용량 데이터베이스를 축소시키는 방법 중에 속성선택 방법이 많이 사용되고 있다. 본 논문에서는 세 가지 속성선택 방법을 사용하여 조건속성 수를 60%이상 축소시켜 결정나무와 로지스틱 회귀모형에 적용시켜보고 이들의 효율을 비교해 본다. 세 가지 속성선택 방법은 MDI, 정보획득, ReliefF 방법이다. 결정나무 방법은 QUEST, CART, C4.5를 사용하였다. 속성선택 방법들의 분류 정확성은 UCI 데이터베이스에 주어진 Credit 승인 데이터베이스와 German Credit 데이터베이스를 사용하여 10층-교차확인 방법으로 평가하였다.
-
The concept of dispersion is intrinsic to the theory and practice of statistics. A formulation of the concept of dispersion can be obtained by comparing the probability of intervals centered about a location parameter, which is peakedness ordering introduced first by Birnbaum (1948). We consider statistical inference concerning peakedness ordering between two arbitrary distributions. We propose nonparametric maximum likelihood estimator of two distributions under peakedness ordering and a likelihood ratio test for equality of dispersion in the sense of peakedness ordering.
-
Inference for probability P(Y소득분배의 가장 대표적인 불평등척도는 Gini index이며, 이것은 통계학자인 Gini가 제안한 지표로서 소득분배에 관한 분석에서 가장 널리 이용되고 있다. 본 논문에서는 두 원의 호에 의해 Lorenz 곡선을 추정하고 코사인법칙을 이용하여 Gini index를 추정하기 위한 새로운 간편한 방법을 제시하여, 소득분포를 따르는 파레토분포에서 모의실험을 통해 Ogwang and Rao (1996)의 추정방법과 평균제곱오차 면에서 비교 분석한다.주변분포가 Laplace 분포인 세 가지 형태의 이변량 Laplace 분포를 연구한다. 각각의 이변량 Laplace 분포의 확률밀도함수와 누적분포함수를 유도하고, 분포의 그래프를 그려봄으로써 분포의 형태를 알아본다. 조건부 적률을 정리하여 조건부 첨도와 조건부 왜도를 구하고 분포의 성질을 파악한다. 상관계수를 구하여 다른 이변량 분포의 상관계수와 비교해 보았다. 그리고 정의된 분포함수를 응용하여 이변량 Laplace 분포를 따르는 난수벡터를 발생하는 알고리즘을 제안하였으며, 생성된 난수벡터의 표본으로부터 구한 표본평균과 중앙값의 분산-공분산 행렬식을 구하고 이변량 정규분포에 대응하는 행렬식과 비교 토론하였다.소지역에서 유한모집단의 총계등을 추정하는데 있어서 모형-기반 합성치를 예측한다. 즉, 예측(prediction) 문제로 추정치를 다룬다. 초모집단(super-population) 확률 모형을 세우고 최적의 예측치를 유도한다.We discuss why sample design by mathematical programming can be beneficial to practical surveys. We illustrate some developments of software for sample design using mathematical programming in several statistical organizations. Also, we present certain restrictions on the use of mathematical programming.표본조사에서 발생되는 무응답에 대한 대체법은 매우 다양하게 연구 되고 있다. 특히 모형을 기반으로 하는 회귀 대체법은 매우 활용도가 높다. 이 때 일반적으로 종속변수가 결측값의 변수가 되며 독립변수는 주어지게 된다. 주어지 주어진 종속변수와 독립변수의 값을 이용하여 모델을 설정하고 그에 따라 결측값을 예측하여 대체하게 된다. 이 때 예측값 즉 결측값을 구하는 과정에서 독립변수 값 자체에도 결측값이 생기게 된다는 것이다. 이때 여러 가지 방법으로 독립변수의 결측값을 대체하고 모형을 활용할 수 있다. 그러나 이 연구에서는 독립변수들을 같은 특성끼리 그룹화 시키는 요인분석(factor analysis)을 이용하여 독립변수의 결측값에따른 예측된 결측값의 변동을 최소화 하고자했다.소표본 분할표 자료에서 적합도 검정통계량들의 카이제곱 근사 적용 가능에 대하여 많은 연구가 진행되었다. 소표본에서 세 가지 검정 통계량(피어슨 카이제곱
$X^{2}$ , 일반화 가능도비$G^{2}$ , 그리고 역발산 I(2/3) 검정통계량)에 관하여 비교한 Rudas(1986)의 연구를 확장하여, 최근에 제안된 차이측도(BWHD(1/9), BWCS(1/3), NED(4/3) 검정통계량)를 포함시켜 비교 분석하였다. 독립모형의 이차원 분할표, 조건부 독립모형과 한 변수 독립 모형을 따르는 삼차원 분할표에 대한 모의실험을 통하여 생성된 90과 95 백분위수와 이에 대응하는 95% 신뢰구간을 살펴보고 실제 백분위수와 비교하였다. 그 결과$X^{2}$ , I(2/3), 그리고 BWHD(1/9) 검정통계량이 유사한 결과를 나타내었고 이 통계량들이 기존에 제안된 검정통계량들보다 적은 표본크기에서도 카이제곱 근사방법에 적용 가능함을 발견하였다.Variable selection algorithm for principal component analysis using penalized likelihood method is proposed. We will adopt a probabilistic principal component idea to utilize likelihood function for the problem and use HARD penalty function to force coefficients of any irrelevant variables for each component to zero. Consistency and sparsity of coefficient estimates will be provided with results of small simulated and illustrative real examples.Estimates from an EM algorithm are somewhat sensitive to the initial values for the estimates, and it is more likely when the model becomes larger and more complicated. In this article, we examined how the estimates fluctuate during an EM procedure for a recursive model of categorical variables. It is found that the fluctuation takes place mostly during the first half of the procedure and that it can be subdued by applying the Bayesian method of estimation. Both simulation data and real data are used for illustration.Some multivariate analyses provide configurations for variables or objects in low dimensional space because we can see easily their relation. In particular, in simple correspondence analysis(SCA), we can obtain the various configurations which are called SCA Maps based on the algebraic algorithms. Moreover, it often occur the variability among them. Therefore, in this study, we will give a comparison of variability of SCA maps using the procrustes analysis which is a technique of comparing configurations in multidimensional scaling.We develop semiparametric methods for matched case-control studies using regression splines. Three methods are developed: an approximate crossvalidation scheme to estimate the smoothing parameter inherent in regression splines, as well as Monte Carlo Expectation Maximization (MCEM) and Bayesian methods to fit the regression spline model. We compare the approximate cross-validation approach, MCEM and Bayesian approaches using simulation, showing that they appear approximately equally efficient, with the approximate cross-validation method being computationally the most convenient. An example from equine epidemiology that motivated the work is used to demonstrate our approaches.방대한 양의 데이터에서 의사결정에 필요한 정보를 발견하는 일련의 과정을 데이터 마이닝 (data mining)이라고 하는데, 본 연구에서는 생물정보학 (bioinofmatics)의 한분야로서 의학분야의 통계적 의사결정 시스템을 제공하는 의사결정나무 (decision tree) 알고리즘 중 QUEST를 S-PLUS로 구현하고(이하 S-QUEST) 발육제한(Intrauterine Growth Restriction; IUGR) 데이터를 분석하였다.A momentum threshold autoregressive (MTAR) model, a nonlinear autoregressive model, is analyzed in a Bayesian framework. Parameter estimation in the presence of missing data is done by using Markov chain Monte Carlo methods. We also propose simple Bayesian test procedures for asymmetry and unit roots. The proposed method is applied to a set of Korea unemployment rate data and reveals evidence for asymmetry and a unit root.This paper considers the independence test for two stationary infinite order autoregressive processes. For a test, we follow the empirical process method devised by Hoeffding (1948) and Blum, Kiefer and Rosenblatt (1961), and construct the Cram${\acute{e}}$ r-von Mises type test statistics based on the least squares residuals. It is shown that the proposed test statistics behave asymptotically the same as those based on true errors.본 연구에서는 크리스프자료(crisp data)인 독립변수와 퍼지자료(fuzzy data)인 종속변수 사이의 관계가 특정한 함수로 표현되지 않는 비모수 퍼지회귀모형을 분석하기위하여 퍼지수 순위와 퍼지순위변환방법을 소개하고, 모의실험을 통하여 퍼지순위변환방법의 효율성을 조사한다.This paper studies constrained optimization of an M/G/1 queue with a server that can be switched on and off. One criterion is an average number of customers in the system and another criterion is an average operating cost per unit time, where operating costs consist of switching and running costs. With the help of queueing theory, we solve the problems of optimization of one of these criteria under a constraint for another one.21세기 정보화, 기술, 국제화 등 시대적 성격에서 볼 때 국가적 차원의 통계적 소양 교육은 일반 시민의 기본 소양 및 인적자원 개발의 문제임을 인식하고 국가 그리고 대학의 일반 교육 정책으로 다를 필요가 있다. 현재 대학 교육에서 소외되고 사각지대에 있는 기초통계학 교육을 사회 변화와 요구를 반영할 수 있는 교육이 시급한 과제이다. 본 논문은 대학 기초통계학의 현재의 대학교육 상황, 학생들의 교육적 배경, 통계적 소양과 시대적 의미, 기초통계학의 목표, 성격 그리고 방향들을 제시하였다.In this paper we discuss graphical and diagnostic methods for logistic regression, in which the response is the number of successes in a fixed number of trials.Translation errors in the statistical funtions of the Korean Excel 2002 software are analyzed into three categories: Pure translation mistakes; Vague translation; Inconsistent translation. These errors have not been corrected at least for the last ten years and therefore, it is suspicious that the Korean agents for foreign software companies are more interested in marketing with monololy power than in improving quality of their products휴대전화, PDA와 같은 이동 단말기와 무선 통신의 발전으로 인하여, 이동 단말기를 이용한 전자 메일, 게임, 주식거래 등이 가능하게 되었다. 무선 단말기를 통한 주식거래나 게임 등을 위하여서는 난수발생기(Random Number Generator)의 사용이 필수적이다. 그런데 최근까지의 난수발생기는 우수한 난수성에 중점을 두어 개발되었으며, 이동 단말기에서의 에너지 소비량에 대한 연구는 없었다. 이동 단말기는 무게 및 크기의 한계 때문에 배터리의 용량에 제한이 있게되므로, 되도록 에너지 소비량을 줄여서 주어진 배터리를 오랫동안 사용하기를 원하게 된다. 본 논문에서는 이동 단말기에서 많이 사용되는 여러 난수발생기들을 살펴보고, 저전력 에너지 측정도구인 SES(SNU Energy Scanner)를 이용하여 각 난수발생기의 에너지 소비량을 측정하여 이들을 비교한다. 이를 바탕으로 이동 단말기 환경에서 저전력을 소모하는 난수발생기를 제안하였다.본 논문에서는 윈도우 SAS 시스템을 이용하여 윈도우 운영체제, 리눅스 운영체제, 유닉스 운영체제에 각각 저장되어 있는 원격 데이터베이스를 액세스하고 저장하는 방법에 대해서 설명한다. 원격 데이터베이스를 액세스하거나 저장하기 위해서는 윈도우 SAS 시스템이 설치되어 있는 로컬 컴퓨터에 ODBC에 DSN이 미리 등록되어 있어야하며, 윈도우 SAS 시스템에서 SAS/ACCESS 소프트웨어를 이용하여 원격 데이터베이스를 액세스하거나 저장할 수 있다.Various kinds of estimation methods have been developed for imputation of categorical missing data. They include modal category method, logistic regression, and association rule. In this study, we propose two imputation methods (neural network fusion and voting fusion) that combine the results of individual imputation methods. A Monte-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data are (1) true model for the data, (2) data size, (3) noise size (4) percentage of missing data, and (5) missing pattern. Overall, neural network fusion performed the best while voting fusion is better than the individual imputation methods, although it was inferior to the neural network fusion. Result of an additional real data analysis confirms the simulation result.Fattorini(1986)의 통계량은 Shapiro와 Wilk의 일변량 정규분포를 위한 검정통계량을 다변량으로 확장한 것이다. 본 논문에서는 Kim과 Bickel(2003)에서 제안한 이변량 정규분포를 위한 검정통계량을 Fattorini(1986)의 방법을 이용하여 이변량 이상인 경우에도 실제적으로 사용가능하도록 일반화하였다. 제안된 통계량은 Fattorini(1986) 통계량의 근사통계량으로 생각할 수 있으며 표본의 크기가 클 때도 사용가능하다.붓스트랩 기법에 의한 k 인자 허용구간방법을 95/95 확률 및 신뢰도를 갖는 허용구간에 활용하기 위하여 모의실험을 수행하였다. 그 결과 소표본 및 적당한 크기의 표본에서 추정된 신뢰도값은 실제 신뢰도값 95와 약 6${\sim}$ 21% 정도의 차이를 나타냈고, 이 차이는 표본크기가 커질수록 점점 줄어들었다. 더불어 기존방법에 보간법 등을 가미한 방법들을 제안하여 이들에 의한 결과를 기존결과와 비교하였다.공간자료에 대한 통계적 모형과 상관관계, 거리모형 등을 고려하여 크리깅방법에 의한 미 측정지역의 오존도를 예측한다. 서울시의 오존자료를 이용하여 예측한 결과 보통 크리깅방법이 효율적이다.표본의 크기가 작은 경우 추정치의 정도에 문제가 발생한다. 본 연구에서는 대규모 조사에서의 표본을 소지역 혹은 소도메인에 할당하였을 경우 발생하는 추정치의 문제점을 해결하는 방안으로서 회귀모형을 도입하였다. 회귀모형을 기계산업 표본설계 자료에 적용하여 소지역추정의 가능성을 확인하였으며, 고전적인 추정방법과의 비교도 함께 이루어졌다.We consider an efficient parametric estimation method of spatial dependence in weak stationary processes. Spatial dependence is modeled through variogram and correlogram. Most of parametric estimation methods of correlogram use two step method; nonparametric estimation and parametric integration. We bind these two steps into one step by using GEE method instead of least squares type optimization. Our one step method is more efficient statistically and gives a clear interpretation of related concepts used in traditional two step methods.공간 자료에서 이상점이 존재할 경우 변이도(Variogram)를 추정함에 있어 그 효과를 줄이기 위한 방법으로 로버스트(robust) 변이도를 이용한다. 그러나 이상점이 존재하는 자료분석에서 로버스트 변이도를 사용하기에 앞서 이상점을 수정한 자료를 사용하였을 경우 그 효율성 또한 좋다고 알려져 있다. 본 논문에서는 이상점이 존재하는 자료를 분석함에 있어 기존의 이상점 수정법 및 새로운 이상점 수정법의 효율성을 비교하였다.The stationarity is one of the most important properties of a time series. We propose robust sign tests for seasonal autoregressive process to determine whether or not a time series is stationary. The tests have an exact binomial null distribution and are robust to the outliers and the heteroscedastic errors. Monte-Carlo simulation shows that the sign test is locally more powerful than the OLSE-based tests for heavy-tailed and/or heteroscedastic error distributions.In this paper we consider the problem of parameter change based on the cusum test proposed by Lee et al. (2003). The cusum test statistic is constructed utilizing the estimator minimizing density-based divergence measures. It is shown that under regularity conditions, the test statistic has the limiting distribution of the sup of standard Brownian bridge. Simulation results demonstrate that the cusum test is robust when there arc outliers.본 논의에서는 cDNA 마이크로어레이 분석에서 다변량 분석의 한 방법인 Hotelling의 T제곱 통계량을 이용하여 유의적 유전자군을 검색하고, 이 유전자군을 사용하여 검사자료를 두군으로 분류하는데 단변량 t통계량에 기초한 접근보다 얼마나 효율적인지를 평가하고자 한다.생물학자들은 시간 패턴에 따라 발현 수준이 변화하는 유전자의 군집화를 시도하고 있다. 지금까지는 군집 방법의 비교 연구가 주로 진행되어 왔으나, 군집화 이전의 유전선택 방법에 따라 군집화 결과가 달라지기 때문에 유전자 선택 단계도 같이 고려되어야 한다. 따라서 본 연구에서는 Time Control Microarray 자료를 가지고 군집 분석을 하는데 있어서 유전자 선택, 군집분석 방법의 선택, Validation 방법의 선택 등 3가지 요인별로 보다 폭 넓은 비교 연구를 하였다.K-Means 모델을 이용하여 한우 유전자 6번의 BM4311의 중요 DNA marker을 찾기위해 여러 가지로 시도해 왔다. 이번 논문에선 QTL(Quantitative Trait Loci)과 data mining modeling를 이용하여 BM4311에서 중요 DNA marker를 찾아 보도록 하겠다.