Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
Domain
- Mathematics > Models/Data analysis
2005.11a
-
통계 소프트웨어 R은 여러 가지 특징을 가진 도구이다. S라는 전산언어를 기반으로 하고 이에 수학함수와 통계함수, 그리고 그래픽함수들이 결합되어 편리한 계산 작업 환경을 제공하고 있다. R이 기반으로 하고 있는 S언어에는 문법적, 의미론적 특징이 잘 어울려 있다. S언어의 주요 특징 중 하나는 객체지향성이다. 본 연구에서는 R의 특징인 객체지향성과 그 의미에 대하여 살펴보게 된다.
-
본 연구에서는 최근에 널리 사용되고 있는 R 프로그램을 이용하여 실험계획법 중 요인배치법과 반응표면분석을 구현하였다. 특히 반응표면분석에서 직교계획, 회전계획, 기울기 회전계획을 만족하는 실험계획을 제공함으로써 상업용 프로그램의 미진한 부분을 개선하여 실험선택의 폭을 넓게 하였다.
-
In recent years, many people use R as a statistics system. R is frequently updated by many R project teams. We are interested in the method of multiple outlier detection and know that R is not supplied the method of multiple outlier detection. In this talk, we review these procedures for detecting multiple outliers and provide more efficient procedures combined with direct methods and indirect methods using R.
-
반응표면분석에 대한 교육은 실험계획법의 한 단원으로서 가르치는 데 실습시 통계 패키지를 사용한다. 이 때 수학패키지를 병행하여 사용하면 학습효과를 증진시킬 수 있다.
-
경제정책과 관련하여 경제시계열을 작성하는 중요한 목적중 하나는 순환변동을 파악할 수 있는 정보를 제공하는 것이다. 그런데 월별 또는 분기별로 작성되는 경제시계열은 계절변동 및 불규칙변동으로 인해 순환변동 등 기조적 변화를 잘못 파악하기 쉽다. 경제시계열의 기조적 변화를 파악하기 위해서는 원래의 경제시계열에서 계절변동, 불규칙변동을 분해 후 제거해서 분석해야 한다. 이 논문에서는 웨이블렛(wavelet)을 이용하여 시계열을 분해하고 이를 통해 경제시계열의 순환변동 등을 구하고 분해 요소들을 따로 예측한 후 결합된 예측을 시도한다.
-
An identification and characterization of susceptibility genes for common complex multifactorial diseases is a challengeable task, in which the effect of single genetic variation will be likely dependent on other genetic variations(gene-gene interaction) and environmental factors (gene-environment interaction). To address is issue, the multifactor dimensionality reduction (MDR) has been proposed and implemented by Ritchie et al. (2001), Moore et al. (2002), Hahn et al.(2003) and Ritchie et al. (2003). With MDR, multilocus genotypes effectively reduce the dimension of genotype predictors from n to one, which improves the identification of polymorphism combinations associated with disease risk. However, MDR cannot handle missing observations appropriately, in which missing observation is treated as an additional genotype category. This approach may suffer from a sparseness problem since when high-order interactions are considered, an additional missing category would make the contingency table cells more sparse. We propose a new MDR approach with minimum loss of sample sizes by considering missing data over all possible multifactor classes. We evaluate the proposed MDR by using the prediction errors and cross validation consistency.
-
Exploratory data analysis(EDA) is the initial stage of data analysis and provides a useful overview about the whole microarray experiment. If the experiments are replicated, the analyst should check the quality and reliability of microarray data within same experimental condition before the deeper statistical analysis. We shows EDA method focusing on the quality and reproducibility for replicates.
-
We consider the problem of testing for parameter changes in time series models based on a cusum test. Although the test procedure is well-established for the mean and variance in time series models, a general parameter case has not been discussed in the literature. Therefore, here we develop a cusum test for parameter change in a more general framework. As an example, we consider the change of the parameters in an RCA(1) model and that of the autocovariances of a linear process. We also consider the variance change test for unstable models with unit roots and GARCH models.
-
-
This paper discusses the asymptotic efficiency of estimators for optimal portfolios when returns are vector-valued non-Gaussian stationary processes. We give the asymptotic distribution of portfolio estimators
${\hat{g}}$ for non-Gaussian dependent return processes. Next we address the problem of asymptotic efficiency for the class of estimators${\hat{g}}$ First, it is shown that there are some cases when the asymptotic variance of${\hat{g}}$ under non-Gaussianity can be smaller than that under Gaussianity. The result shows that non-Gaussianity of X(t) does not always affect worse. Second, we give a necessary and sufficient condition for${\hat{g}}$ to be asymptotically efficient when the return process is Gaussian, which shows that${\hat{g}}$ is not asymptotically efficient generally. From this point of view we propose to use maximum likelihood type estimators for g, which are asymptotically efficient. We examine our approach numerically. -
We propose five Bayesian methods to estimate the cell expectation in an incomplete multi-way categorical table with nonignorable nonresponse mechanism. We study 3 Bayesian methods which were previously applied to one-way categorical tables. We extend them to multi-way tables and, in addition, develop 2 new Bayesian methods for multi-way categorical tables. These five methods are distinguished by different priors on the cell probabilities: two of them have the priors determined only by information of respondents; one has a constant prior; and the remaining two have priors reflecting the difference in the response mechanisms between respondent and non-respondent. We also compare the five Bayesian methods using a categorical data for a prospective study of pregnant women.
-
이 논문은 표본크기와 표본추출간격 이외의 관리모수인 EWMA 관리도의 가중치를 이전 시점의 관리통계량 값에 기초하여 변화시키는 VW(variable weight) 방법에 대한 것이다. 이 방법을 VSR(variable sampling rate)과 병행하는 절차를 제안하고, 절차의 효율에 대하여 알아보았다.
-
This paper considers a preventive maintenance policy following the expiration of renewing warranty, Most preventive maintenance models assume that each PM costs a fixed predetermined amount regardless of the effectiveness of each PM. However, it seems more reasonable to assume that the PM cost depends on the degree of effectiveness of the PM activity. In this paper we consider a periodic preventive maintenance policy following the expiration of renewing warranty when the PM cost is an increasing function of the PM effect. The optimal number and period for the periodic PM policy with effect dependent cost that minimize the expected cost rate per unit time over an infinite time span are obtained.
-
The growing number of households with only cellular phones and no landline telephones, is decreasing the coverage of the landline frame. Dual frame sample designs are considered which draw phone numbers from the landline and the cellular number frame. Cellular phones may be used as personal or household devices. Weighting strategies appropriate to compensate for unequal probabilities in selecting dual frame samples are proposed. Also, some current issues are discussed.
-
This paper proposes the calibration procedure for stratified Warner's randomized response model, which suggested by Kim and Warde (2004). It is shown that the proposed calibration estimator is more efficient than the Kim and Warde's model.
-
다차원층화에서 선형계획법을 이용한 표본배정 방법은 Winkler(1990, 2001), Sitter와 Skinner(1994, 2002)가 제안하였다. 이 방법들은 표본크기가 층 개수보다 크지 않는 경우에 공통적으로 선형계획법을 이용하여 표본배정을 실시하였다. 반복 비율 적합방법(IPF), 일반화 반복 비율 적합(GIFP), SS 방법을 통해 셀 값을 결정하고 선형계획법을 이용하여 표본의 배정확률을 통해 표본배정을 실시한다. 이 3가지 방법들로 표본을 배정하고 평균 및 분산추정량을 비교한다.
-
A new model-based clustering algorithm is proposed. The idea starts from the assumption that observations are realizations of Gaussian processes and so are correlated. With a special covariance structure, the posterior probability that an observation belongs to each cluster is computed using the ECM algorithm. A preliminary result of small-scale simulation study is given to compare with the k-means clustering algorithms.
-
호남지역에 대한 대설특보 예보를 위한 통계모형 개발을 수행하였다. 일 신적설량에 따라 세법주(0: 비발생, 1: 대설주의보, 2: 대설경보)로 구분되는 순서형 자료 형태를 지니고 있다. 두가지 통계 모형(다등급 로지스틱 회귀모형, 신경회로망 모형)을 고려하였으며, 수치모델 출력자료를 이용한 역학-통계모형 기법의 하나인 MOS(model output statistics)를 적용하여 축적된 수치모델 예보자료와 관측치의 관계를 통계모형식으로 추정하여 예측모형을 개발하였다. 군집분석을 사용하여 훈련자료와 검증자료를 구분하였으며, 예보치 생성을 위하여 문턱치를 고려하였다.
-
A시 B구에서 2005년 5월 16일부터 6월 30일까지 지역주민(4개 동민)과 해당 구청의 직원들을 대상으로 음주문화에 관한 설문조사를 실시하였다. 응답자들을 지역주민과 구청직원의 그룹으로 분류한 다음, 각 그룹별로 주요 설문문항에 대하여 답변항목별 분포를 살펴보고, 성별분포와 연령대별 분포를 SPSS로 빈도분석을 실시하고 Excel을 이용하여 그래프를 제시하였다. 설문조사를 통하여 음주와 관련된 주요 홍보대상을 파악한 후 그 대상을 목표로 음주관련 사업의 집중도를 높이는데 그 목적이 있다.
-
오늘날 대부분의 통계학 교과서에서 프랜시스 골턴(Francis Galton 1822-1911)은 비록 "회귀(regression)"라는 용어를 처음 사용한 인물이기는 하되, 그가 생각했던 "평균으로의 회귀(regression to the mean)"라는 것은 오늘날의 회귀분석과는 거리가 먼 것이라는 언급과 함께 짧게 소개된다. 이 글에서는 바로 그 골턴이 직접 쓴 것들을 다시 읽어보고 골턴 자신과 후세에 소개되는 골턴 사이의 거리를 살펴보려 한다. 그 결과 골턴은 통계학의 역사에서 여러 가지로 흥미로운 인물이므로 그의 이름이 통계학 교육 내용 중에 지금보다는 조금 더 등장해도 좋을 것으로 보인다.
-
인구주택총조사는 국가통계의 가장 기본이 되는 자료를 생산하는 조사로 거의 대부분의 나라에서 전수조사방식으로 정기적으로 시행해왔다. 그러나 최근 들어 일부 국가, 특히 선진국에서 응답거부가 늘고, 조사대상을 접촉하기 어려운 등 조사환경이 나빠지고 있다. 아울러 조사비용이 급격하게 증가하고 있다. 이에 각 국의 통계청에서는 이러한 상황을 인구센서스에 대한 '근본적인 도전'으로 간주하고 있다(Jensen, 2000). 심지어 독일이나 네델란드에서는 조사환경의 악화로 1990년대 이후 인구센서스를 중단한 상태이다(Bierau, 2000). 조사환경의 악화는 조사의 포괄성과 신뢰성에 대한 문제를 야기한다. 선진국들과 마찬가지로 우리나라에서도 조사환경이 빠른 속도로 악화되고 있다. 더욱이 우리의 경우 읍면동사무소 기능축소로 말미암아 과거 인구주택총조사에서 실제 조사에 도움을 주었던 행정지원이 없어짐에 따라 앞으로 조사의 어려움은 더욱 커질 것으로 보인다. 이렇듯 악화되는 조사환경변화에 대응하여 선진 국가에서는 다양한 형태의 인구센서스방식들이 모색되고 있다. 많은 나라들이 순환형 센서스보다는 행정자료를 인구주택총조사에 활용하는 방안을 모색하고 있으며, 덴마크나 핀란드 등 일부 국가에서는 이미 전혀 조사를 하지 않고 행정자료로 대부분의 인구센서스 통계를 생산하고 있다(Harala, 1996; Gaasemyr, 1999; Laihonen, 1999), 많은 나라들이 행정자료를 활용한 인구센서스 방식을 선호하는 데는 또 다른 이유가 있다. 자료의 측면에서 보면, 행정자료를 활용할 경우 매년 인구센서스 통계를 생산할 수 있다. 실제로 현재 덴마크와 핀란드는 인구센서스에 준하는 통계를 매년 생산하고 있다. 또한 이러한 자료를 바탕으로 지역통계 수요에 즉각 대처할 수 있다. 더 나아가 이와 같은 통계는 전 국민에 대한 패널자료이기 때문에 통계적 활용의 범위가 방대하다. 특히 개인, 가구, 사업체 등 사회 활동의 주체들이 어떻게 변화하는지를 추적할 수 있는 자료를 생산함으로써 다양한 인과적 통계분석을 할 수 있다. 행정자료를 활용한 인구센서스의 이러한 특징은 국가의 교육정책, 노동정책, 복지정책 등 다양한 정책을 정확한 자료를 근거로 수립할 수 있는 기반을 제공한다(Gaasemyr, 1999). 이와 더불어 행정자료 기반의 인구센서스는 비용이 적게 드는 장점이 있다. 예를 들어 덴마크나 핀란드에서는 조사로 자료를 생산하던 때의 1/20 정도 비용으로 행정자료로 인구센서스의 모든 자료를 생산하고 있다. 특히, 최근 모든 행정자료들이 정보통신기술에 의해 데이터베이스 형태로 바뀌고, 인터넷을 근간으로 한 컴퓨터네트워크가 발달함에 따라 각 부처별로 행정을 위해 축적한 자료를 정보통신기술로 연계
${cdot}$ 통합하면 막대한 조사비용을 들이지 않더라도 인구센서스자료를 적은 비용으로 생산할 수 있는 근간이 마련되었다. 이렇듯 행정자료 기반의 인구센서스가 많은 장점을 가졌지만, 그렇다고 모든 국가가 당장 행정자료로 인구센서스를 대체할 수 있는 것은 아니다. 행정자료로 인구센서스통계를 생산하기 위해서는 각 행정부서별로 사용하는 행정자료들을 연계${cdot}$ 통합할 수 있도록 국가사회전반에 걸쳐 행정 체제가 갖추어져야 하기 때문이다. 특히 모든 국민 개개인에 관한 기본정보, 개인들이 거주하며 생활하는 단위인 개별 주거단위에 관한 정보가 행정부에 등록되어 있고, 잘 정비되어 있어야 하며, 정보의 형태 또한 서로 연계가 가능하도록 표준화되어있어야 한다. 이와 더불어, 현재 인구센서스에서 표본조사를 통해 부가적으로 생산하는 경제활동통계를 생산하기 위해서는 개인이 속한 사업체를 파악할 수 있도록 모든 사업체가 등록되어 있고, 개인의 경제활동과 관련된 각종 정보들이 사업체에 잘 기록 및 정비되어 있어야 한다. 따라서 행정자료 기반의 인구센서스통계생산은 단지 국가의 통계뿐만 아니라 행정조직과 행정체계를 정비하고, 개인과 사업체의 등록체계를 정비하며, 사업체의 개인에 관한 정보를 정비하여 표준화하는 막대한 작업을 수반한다. 이런 이유에서 대부분의 국가들은 장래에 행정자료 기반의 인구센서스통계생산을 목표로 하되, 당장은 행정자료를 인구센서스에 보조적 수단을 사용하는 데 노력을 기울이고 있다. 우리나라의 경우 행정자료를 인구주택총조사에 활용할 수 있는 몇 가지 중요한 기반을 갖추고 있다. 첫째, 1962년부터 시행한 주민등록제도가 있다. 주민등록제도는 모든 국민 개개인을 파악할 수 있는 주민등록번호를 갖추고 있으며 40년 이상 제도화되어 오류가 거의 없는 편이다. 둘째, 세계 10위권 내에 들 정도로 높은 우리나라의 정보화 수준과 2000년부터 시작된 전자정부사업으로 행정자료를 연계${cdot}$ 통합할 수 있는 기반이 잘 갖추어져 있다. 반면, 우리나라 행정자료 가운데 주거(생활)단위와 사업체를 파악할 수 있는 자료는 매우불완전하다. 대표적으로 인구센서스통계의 주요한 단위인 가구를 파악할 수 있는 수준으로 주소체계가 정비되어 있지 않으며, 많은 사업체, 특히 소규모 사업 가운데 등록되어 있지 않거나 등록오류가 많은 편이다. 이외에도 과세대장, 토지대장 등 많은 행정자료가 아직은 불완전하여 이들을 직접 연계하기에 어렵다. 행정자료를 연계하기 위해서는 모든 자료를 정비하고 표준화하여 실제 행정에 활용하여야 하기 때문에 행정적으로 많은 노력과 시간이필요하다. 따라서 현재는 손쉬운 부분에서부터 인구주택총조사에 행정자료를 활용하고, 앞으로 활용 과정을 거치면서 행정자료를 정비하고 표준화하는 장기적인 방안을 마련할 필요가 있다. -
2005년 1월, 정부혁신지방분권위원회의
${\ulcorner}$ 국가통계인프라 강화 방안${\lrcorner}$ 의 내용을 보면 통계청의 지방통계사무소를 지역통계센터로 개편하여 지역통계의 기획, 표본설계 등에 관한 기술지원을 담당하는 것으로 기술되어 있다. 향후 모든 기관의 통계조사업무를 수탁, 대행하는 기관으로의 발전을 목적으로 한다. 통계청에서는 이 역할을 담당할 인재를 양성하기 위한 교육과정을 통계교육원에 요청하여 개설한 바, 상반기와 하반기 2회 실시하였다. 교육과정명은${\ulcorner}$ 통계개발기획과정${\lrcorner}$ 으로 2주간 실시하였고, 교육대상자는 현재 지방청 및 지방사무소에 근무하는 직원으로 한정하였다. 교육과목으로는 이론과 실무가 접목되고, 교육 이수 후에 바로현장에서 활용 가능하도록 구성하였으나 결과론적으로 보았을 때 추가되어야 할 교육내용들이 나타났다. 조사기획 즉, 조사방법과 조사기획서 작성에 치중한 교육내용은 향후 지역통계센터에서 어떤 역할을 부여받느냐에 따라서 좀 더 체계화되지 않을까 생각된다. 전체 팀원들을 위해서는 일련의 조사기획에 대한 이론과 실무경험이 중요하다. 또한 지방자치단체의 통계DB구축에 도움을 주기 위해서는 그 부분에 대한 이해도 필요할 것으로 판단된다. 특히 관리자에게는 리더십과 관리능력 그리고 대인과의 커뮤니케이션 스킬, 분석능력 등이 추가적으로 필요할 것으로 생각되었다. -
생활시간조사(Time Use Survey)는 국민들이 주어진 하루 24시간을 어떤 형태로 보내고 있는 지를 알아보기 위한 조사이다. 이를 통하여 인구 속성에 따른 개인유지, 주업, 가정관리, 레저시간 등에 관한 시간활용 정보를 파악하게 된다. 본 연구에서는 시간량 분석의 관점에서 생활시간조사에 대한 탐색적 분석을 시도한다.
-
베이즈 법칙에서는 사전확률과 우도가 주어지고 어떤 실험결과가 일어났을 때 사후확률을 계산한다. 이러한 사후확률의 계산 문제를 미니탭 매크로를 이용하여 쉽게 계산할 수 있다. 또한 일련의 독립적이고 연속적인 실험결과에 따르는 사후확률도 편리하게 계산할 수 있다. 최근에는 미니탭 한글 Release 14가 출시되어 한글로 결과를 나타낼 수 있도록 매크로를 작성할 수 있다.
-
Ensemble method has been known as one of the most powerful classification tools that can improve prediction accuracy. Ensemble method also has been understood as ‘perturb and combine’ strategy. Many studies have tried to develop ensemble methods by improving perturbation. In this paper, we propose two new ensemble methods that improve combining, based on the idea of pattern matching. In the experiment with simulation data and with real dataset, the proposed ensemble methods peformed better than bagging. The proposed ensemble methods give the most accurate prediction when the pruned tree was used as the base learner.
-
본 논문에서는 k개의 포아송 확률변수가 서로 종속 되어 있는 다변량 포아송 분포를 따를 때, 주어진 분산-공분산 행렬 구조를 유지하는 다변량 포아송 확률난수 생성방법에 대해 다루었다. 특히, 확률난수를 생성하기 위해 선형방정식을 푸는 두 가지 수치해석 알고리즘을 제안하였으며, Park 등 (1996)의 다변량 베르누이 확률난수 생성에 활용된 알고리즘과의 연관성을 다루었다.
-
A floating-strike lookback call option gives the holder the right to buy at the lowest price of the underlying asset. Similarly, a floating-strike lookback put option gives the holder the right to sell at the highest price. This paper will derive explicit pricing formulas for these floating-strike lookback options with flexible monitoring periods. The monitoring periods of these options start at an arbitrary date and end at another arbitrary date before maturity.
-
Recently, as a result of the growing interest in modelling stationary processes with discrete marginal distributions, several models for integer valued time series have been proposed in the literature. One of theses models is the integer-valued autoregressive(INAR) models. However, when modelling with integer-valued autoregressive processes, there is not yet distributional properties of forecasts, since INAR process contain an accrued level of complexity in using the Steutal and Van Harn(1979) thinning operator 'o'. In this study, a manageable expression for the asymptotic mean square error of predicting more than one-step ahead from an estimated poisson INAR(1) model is derived. And, we present a bootstrap methods developed for the calculation of forecast interval limits of INAR(p) model. Extensive finite sample Monte Carlo experiments are carried out to compare the performance of the several bootstrap procedures.
-
This paper presents an autocorrelation test that is applicable to dynamic panel data models with serially correlated errors. The residual-based GMM t-test is a significance test that is applied after estimating a dynamic model by using the instrumental variable(IV) method and is directly applicable to any other consistently estimated residuals. Monte Carlo simulations show that the t-test has considerably more power than the
$m_2$ test or the Sargan test under both forms of serial correlation (i.e., AR(1) and MA(1)). -
탐색적자료분석을 위한 도구로서 그래픽 방법들을 자주 쓰게 되는 데 이러한 그래픽 방법 중 평행좌표그림을 대상으로 이 방법을 확장하여 볼 수 있다. 이러한 확장된 그림인 정다각기둥평행좌표그림은 탐색적자료분석 도구로서 유용하게 쓰일 수 있다.
-
Many data sets obtained from surveys or medical trials often include missing observations. When these data sets are analyzed, it is general to use only complete cases. However, it is possible to have big biases or involve inefficiency. In this paper, we consider a method for estimating parameters in logistic linear models involving non-ignorable missing data mechanism. A binomial response and normal exploratory model for the missing data are used. We fit the model using the EM algorithm. The E-step is derived by Metropolis-hastings algorithm to generate a sample for missing data and Monte-carlo technique, and the M-step is by Newton-Raphson to maximize likelihood function. Asymptotic variances of the MLE's are derived and the standard error and estimates of parameters are compared.
-
For the problem of variable selection in linear models, we consider the errors are correlated with V covariance matrix. Hocking's theorems on the effects of the overfitting and the undefitting in linear model are extended to the less than full rank and correlated error model, and to the ANCOVA model
-
Classification tree is one of the most suitable base learners for ensemble. For past decade, it was found that bagging gives the most accurate prediction when used with unpruned tree and boosting with stump. Researchers have tried to understand the relationship between the size of trees and the accuracy of ensemble. With experiment, it is found that large trees make boosting overfit the dataset and stumps help avoid it. It means that the accuracy of each classifier needs to be sacrificed for better weighting at each iteration. Hence, split effect in boosting can be explained with the trade-off between the accuracy of each classifier and better weighting on the misclassified points. In bagging, combining larger trees give more accurate prediction because bagging does not have such trade-off, thus it is advisable to make each classifier as accurate as possible.