Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
- Mathematics > Models/Data analysis
SAS의 PROC MIXED는 ANOVA 추정량보다 더 다양한 잔차최대우도추정법 또는 최대우도추정법으로 모수들을 추론할 수 있다. 혼합모형에 속하는 불균형중첩오차구조를 갖는 선형회귀모형에서 랜덤효과에 해당되는 그룹간의 분산과 고정효과에 해당되는 회귀계수들에 대한 신뢰구간을 구하기 위하여 대표본인 경우와 소표본인 경우에 대하여 PROC MIXED를 사용한다. 시뮬레이션을 실행한 결과, 대표본인 경우에는 모수들의 신뢰구간을 구하기 위하여 PROC MIXED를 활용할 수 있지만, 소표본인 경우에는 PROC MIXED를 사용할 경우, 그룹간 분산과 회귀계수 가운데 하나인 절편항에 대한 신뢰구간은 시뮬레이터된 신뢰계수가 명시한 신뢰계수를 지키지 못하는 것을 보인다.
In this paper, we review the variable-selection properties of LASSO and SCAD in penalized regression. To improve the weakness of SCAD for high noise level, we propose a new penalty function called MSCAD which relaxes the unbiasedness condition of SCAD. In order to compare MSCAD with LASSO and SCAD, comparative studies are performed on simulated datasets and also on a real dataset. The performances of penalized regression methods are compared in terms of relative model error and the estimates of coefficients. The results of experiments show that the performance of MSCAD is between those of LASSO and SCAD as expected.
In this paper, we propose an extension of the maximum likelihood seasonal cointegration procedure developed by Johansen and Schaumburg (1999) for daily time series. We presented the finite sample distribution of the associated rank test statistics for daily data.
In this paper we consider the well-known semiparametric proportional hazards models for survival analysis. These models are usually used with few covariates and many observations (subjects). But, for a typical setting of gene expression data from DNA microarray, we need to consider the case where the number of covariates p exceeds the number of samples n. For a given vector of response values which are times to event (death or censored times) and p gene expressions(covariates), we address the issue of how to reduce the dimension by selecting the significant genes. This approach enables us to estimate the survival curve when n
${\ll}$ p. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. The approach creates additional flexibility by allowing the imposition of constraints, such as bounding the dimension via a prior, which in effect works as a penalty To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method. We demonstrate the use of the methodology to diffuse large B-cell lymphoma (DLBCL) complementary DNA (cDNA) data and Breast Carcinomas data. -
Microarry 기술의 발전은 유전자의 기능과 상호 관련성 그리고 특성을 파악 가능하게 하였으며, 이를 위한 다양한 분석 기법들이 소개되고 있다. 본 연구에서 소개하는 fuzzy clustering 기법은 genome 영역의 expression 분석에 가장 널리 사용되는 기법중 비지도학습(unsupervized) 분석 기법이다. Fuzzy clustering 기법을 효모(yeast) expression 데이터를 이용하여 분류하여 hard k-means와 비교 하였다.
EDF에 근거한 Cramer-von Mises 형태의 통계량을 합교원리를 이용하여 다변량으로 일반화한다. 그리고 제안된 통계량의 귀무가설에서의 극한분포를 적절한 공분산함수를 가진 가우스 과정의 적분의 형태로 표현하고 통계량의 근사적인 계산방법을 고려한다.
통계학의 주요 관심인 표본의 정규성 검정을 위해 통계패키지에서 사용하고 있는 Q-Q(quantile-quantile) 플롯을 중도절단표본에서 사용함으로 발생하는 문제점을 알아보고 이를 보완하여 수정된 Q-Q플롯과 수정된 Normalized Sample Lorenz Curve(NSLC)을 제시한다. 예제로 Hodgkin's disease 데이터를 중도절단하여 새로 제시한 Normalized Sample Lorenz Curve을 그려보았다.
확률밀도함수가 명확히 표현되지 않고 오직 백분위함수로만 표현되는 분포에서 최우추정치를 구하는 수치적 최적화 알고리즘에 대해서 연구하였다. 이 최우추정 알고리즘을 수문학 등에서 사용되는 5-모수의 웨이크비 분포에 적용하였으며, 몬테카를로 시뮬레이션을 통하여 L-적률추정법과 그 성능을 비교하였다.
본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 제안하고 활용 예를 제시한다. 이 방법은 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다.
In this paper, we develp the group ordering referecne priors for the differecne of the intraclass correlation coefficient in familial data. Using marginal posterior distributions under those priors, we compare frequentist coverage probabilities.
유배우율과 생명표의 작성기법을 응용하여 작성된 결혼생명표를 이용하여 1960
${\sim}$ 2000년까지의 연령별 유배우율의 추이, 평균적으로 부부가 함께 생활하는 기간인 유배우 기대여명의 변화, 유배우 잠재 기대여명과 유배우 기대여명의 관계 등을 알아보았다. -
지역소득통계는 경제
${\cdot}$ 사회${\cdot}$ 복지의 종합적인 지역정책 수립을 위한 핵심 자료로 이용되고 있다. 지역소득통계의 수준을 보다 높이기 위해서는 현재 작성하고 있는 생산 및 지출측면의 지역소득통계 뿐만 아니라 분배측면의 소득에 대한 통계도 함께 조속히 작성되어야 한다. 국민소득통계는 한국은행에서 작성하고 있으나 16개 시도별 지역내총생산(GRDP)통계는 통계청에서 별도 추계하여 작성하고 있다. 이에 지역내총생산(GRDP)과 국내총생산(GDP)의 상호간 차이를 최소화하기 위하여는 유기적인 협력관계가 필요하다. 또한 기초자치단체(시군구)별 지역내총생산(GRDP)통계는 시도에서 작성하고 있다. 현재 6개 시도에서 작성되고 있는 기초자치단체별GRDP의 작성 확산을 위한 노력과 아울러 이들 자료와 통계청에서 작성한 시도별 GRDP자료와의 정합성 유지방안에 대한 대책도 요구되고 있다. -
본 논문은 시계열에 내재된 설
${\cdot}$ 추석 등 음력 명절효과의 존재를 검정하기 위해 RegARIMA 모형의 잔차에 대한 t-검정 통계량을 제시하였으며 Box-plot에 의한 그래프적 진단을 시도하였다. 제시된 t-검정 결과를 X-12-ARIMA의 AICC-사전검정 및 RegARIMA 모형에 의해 추정된 명절효과 회귀계수의 t-값과 비교하였다. 사용된 명절효과 변수는 Bell과 Hillmer(1983)의 명절효과 변수이다. -
통계적 품질관리나 실험계획법에서 요인의 수가 과다하게 많은 경우 주로 직교배열을 이용하여 실험을 한다. 그러나 직교배열을 쓰지 못할 때 우리는 근사직교배열을 이용하게 되는 데 이 때 근사직교배열의 직교성의 정도를 평가할 수 있는 기준으로서 상호정보를 이용할 수 있다.
In this paper a class of multifactor designs for estimating the slope of second order response surface regression models with correlated errors is considered. General conditions for second order slope rotatability over all directions and also with respect to the maximum directional variance in case of k=2 have been derived assuming errors have a general correlated error structure. And we consider the measures for evaluating slope rotatability with correlated errors similar to in case of uncorrelated error structures.
The robust quasi-likelihood (RQL) proposed by Cantoni & Ronchetti (2001) is a robust version of quasi-likelihood. They adopted Huber function to increase the resistance of the RQL estimator to the outliers. They considered the Huber function only of symmetric type. We extend the class of Huber function to include asymmetric types, and derived a method to find the optimal asymmetric one.
경제적성과는 생산자, 소비자, 정부 등과 같은 경제주체들이 생산, 투자, 소비 등의 활동을 얼마나 유기적이며 효율적으로 잘 하느냐에 달려있고, 소비자전망조사는 경제주체 중 소비자의 향후 경기 및 소비에 대한 심리를 조사하고 이를 지수화하여 소비 및 경기 예측자료로 활용하는데 그 목적이 있다. 이렇게 작성된 소비자기대지수와 소비자평가지수는 서로 높은 상관관계를 가지고 움직이며, 이들의 차는 동행지수 순환변동치보다 3개월 정도 선행하는 것으로 나타났다. 또한 소비자기대지수는 계절성 검토결과 계절성이 있으며, 원계열보다 계절조정계열이 움직임이 뚜렷하며, 동행지수 순환변동치와 비교결과 선행성도 더 큰 것으로 나타났다. 이외에도 소비자기대지수는 소비관련 지표인 GDP 민간소비와 가계소비지출과도 서로 상관관계가 있는 것으로 나타나 정보변수로서의 유용성이 있는 것을 확인하였다.
경기를 보다 정확하게 예측하고 대응하기 위해서는 실물경기지표뿐만 아니라 기업과 소비자의 주관적이고 심리적인 판단 즉 경제체감을 파악하여 분석할 필요가 있다. 따라서 이 연구에서는 기업경기 및 소비자 전망조사의 통계자료들을 활용하여 경제체감(Economic Sentiment) 측정을 시도하였으며, EU 접근방식을 적용하여 2003년 1월부터 2005년 3월까지 우리나라의 경제체감지수(ESI)를 작성하였다. 작성한 지수의 상관분석 결과는 경제체감지수(ESI)가 양호한 선행지표로서 기능할 수 있음을 시사하고 있다.
설문조사방식인 기업경기조사는 간편하고 신속하게 경기를 파악할 수 있을 뿐만 아니라 전통적인 경제통계로는 포착하기 어려운 기업의 경제활동에 대한 평가와 전망을 지수화할 수 있다는 이점이 있다. 본고에서는 전국경제인연합회의 전망BSI를 이용하여 다음 분기 경제성장률을 예측하는 데 도움이 되는지 살펴보았다. 예측력 검정 결과 전망BSI는 1
${\sim}$ 2분기 이후의 경제성장률과 높은 상관관계를 보이고 있으나 기간에 따라서는 오히려 예측오차를 크게 할 수도 있는 것으로 나타났다. 우리나라를 포함하여 각국에서 서베이 자료의 활용도가 점차 커지고 있는 만큼 조사방식 개선, 합성지수 개발 등 기업경기조사의 정확도 제고를 위해 많은 노력을 기울일 필요가 있다. -
7차 교육과정(1997)의 도입으로 확률 및 통계단원이 중등 수학 교과과정에서 독자적인 영역을 확보하게 된 만큼 그 목적에 부합하면서 효율적이고 흥미를 유발시킬 수 있도록 교과교육 매체 개발에 투자를 해야 할 시기라고 본다. 교과교육 매체의 한 방법으로 Excel을 중학 교육과정에 나타난 통계교과내용을 지원하게끔 Excel의 기본 메뉴, 분석도구, 그리고 Visual Basic을 활용한 매크로 작성방법에 대하여 다루었다.
본 논문에서는 집단화된 자료의 분위수들을 계산하는 수정된 방법을 제시하였다. 제시된 방법은 각 계급구간 안의 자료들이 그 구간에 걸쳐 균등한 간격으로, 그리고 구간의 중간점에 관하여 대칭으로 분포하고 있다고 가정하고 분위수들을 계산하는 방법이다. 개개의 자료값들이 주어진 자료를 통하여, 제시된 방법과 기존의 방법을 비교하였다.
상호정보를 이용하면 두 확률변수 사이의 종속의 정도를 평가할 수 있는 측도를 제시할 수 있고 두 변수 사이의 상관관계를 나타내는 표본상관계수의 단점을 보완한 일반화상관계수를 정의할 수 있다.
Locus ordering is the necessary step in constructing genetic map, and the construction of reliable and fine genetic map is one of the most important issue in genetic research area. Locus ordering searches for the best locus order among the possible orders and it amounts to evaluating the maximum likelihood for each order. With only 10 loci, for example, there are 1,814,000 possible orders, and therefore, locus ordering entails a big computational problem. In this paper we suggest a useful algorithm for loci ordering via the Fiedler vector. The suggested algorithm is easy to compute and can handle many loci simultaneously. Furthermore, the required computation time is very short compared to others and the result of locus ordering is very accurate.
마이크로어레이자료의 분석에 있어서 주성분 자기조직도(principal component SOM)의 유용성을 알아보고, 흔히 사용되는 다른 군집분석방법과 비교하였다. 또한 MST(minimal spanning tree)를 이용하여 주성분자기조직도 결과의 적합성을 알아보았다.
We derive an It
${\hat{o}}$ formula for generalized functionals for the fractional Brownian sheet with arbitrary Hurst parameter${H_1},\;H_2$ ${\epsilon}$ (0,1). As an application, we consider a stochastic integral representation for the local time of the fractional Brownian sheet. -
Empirical findings on interet rate dynamics imply that short rates show some long memories and non-Markovin. It is well-known that fractional Brownian motion(fBm) is a proper candidate for modelling this empirical phenomena. fBm, however, is not a semimartingale process. For this reason, it is very hard to apply such processes for asset price modelling. With some modifications, this paper investigate the fBm interest rate theory, and obtain a pure discount bond price and Greeks.
For the almost certainly convergent series
$S_n$ of independent random variables the limiting behavior of tail series${T_n}{\equiv}S-S_{n-1}$ is reviewed. More specifically, tail series strong laws of large number and tail series weak laws of large numbers will be introduced, and their relationship will be investigated. Then, the relationship will also be extended to the case of Banach space valued random elements, by investigating the duality between the limiting behavior of the tail series of random variables and that of random elements. -
Knowing the time of the process change could lead to quicker identification of the responsible special cause and less process down time, and it could help to reduce the probability of incorrectly identifying the special cause. In this paper, we propose a MLE of the process change point when control charts with the fixed sampling rate (FSR) scheme or the variable sampling rate (VSR) scheme monitor a process to detect changes in the process mean and/or variance of a normal quality variable.
In this article, we will compare the performance of the mean control chart, the median control chart, the transformed mean control chart, the transformed median control chart, and the precedence control chart by simulation study. For control charts with transformed data, Yeo-Johnson transformation is used. Under the in-control condition, ARL's in all control charts coincide with the designed ARL in the normal distribution, but in the other distributions, only the precedence control chart provides the in-control ARL as designed. Under the out-of-control condition, the mean control chart is preferred in the normal distribution and the median control chart is preferred in the heavy-tailed distribution and the precedence control chart outperforms in the short-tailed distribution.
A loss system where two types of customers arrive in accordance with two independent Poisson processes is considered. An efficient recursive formula is developed for calculating the loss probability when the number of servers is large. Some practical examples regarding the performance evaluation of telecommunications networks are discussed.
본 논문에서는 1차 자기회귀모형에서 자기회귀계수에 대한 여러 가지 추정량들의 분포함수에 대한 근사적추론 방법에 대해 연구하였다. 이차형식에 대한 안장점근사의 결과를 이용한 이 근사법은 여러 형태의 추정량들에 대해 근사분포의 유도과정이 불필요하며, 소표본은 물론 통계적 추론의 주요 관심영역에서의 근사정도가 매우 뛰어난 장점을 가지고 있다. 모의실험을 통해 Edgeworth근사를 비롯한 기존의 여러 근사법보다 효율이 뛰어남을 확인하였다.
We consider penalized likelihood regression with exponential family responses. Parallel to recent development in Gaussian regression, the fast computation through asymptotically efficient low-dimensional approximations is explored, yielding algorithm that scales much better than the O(
$n^3$ ) algorithm for the exact solution. Also customizations of the direct cross-validation strategy for smoothing parameter selection in various distribution families are explored and evaluated. -
우리나라의 애국가(愛國歌), 일본(Kimigayo) 그리고 미국국가(The star-spangled Banner) 등에 대해서 악보가 갖는 고유정보를 카오스적 접근 방법인 근사엔트로피(approximate entropy)와 허스트(Hurst) 지수를 이용하여 각각 음계(scale)의 복잡도(複雜度)와 장기기억속성(長期 記憶 屬性)을 계산하여 비교하였던 바, 애국가가 상대적으로 복잡도에서 가장 높았으며, 세 국가 모두 장기 기억효과가 있는 것으로 나타났는데, 지속적인(persistent) 성향은 일본국가가 가장 컸다.
민감한 모집단의 모수 추정 방법으로 확률화응답기법과 무응답을 고려한 직접조사 방법의 효율성을 비교 분석하였다.
${\"{a}}$ rndal (1996) and Knottnerus (2003) had a critical look at the well known variance estimator of Sen (1953) and Yates and Grundy (1953) in probability proportional to size sampling. In this paper, we point out that although their approaches can avoid the difficulties in variance estimation with respect to the joint probabilities, there exist the disadvantages in practice. Also, we describe a sampling procedure available in statistical software that are useful for the variance estimation. -
In this paper, we examine the problem of estimating the sensitive characteristics and behaviors in a multinomial randomized response (RR) model. We analyze this problem through a Bayesian perspective and develop a Bayesian multinomial RR model in survey study. The Bayesian inference of multinomial RR model is a new approach to RR models.
보통 생태학 분야 등에 적용될 수 있는 적응집락추출계획(adaptive cluster sampling plan)을 수정하여, 표본의 크기 면에서 더 효율적인 Jumped 및 일반화 적응집락추출계획을 제안하였다. 이러한 계획 하에서 Hansen-Hurwitz(HH)와 Horvitz-Thompson (HT) 추정량으로 모수를 추정하였다. 제안한 새로운 계획들을 시뮬레이션을 통하여 기존의 계획과 비교하였다.
중도절단된 자료와 표본수가 적은 자료를 가지는 생존분석에서 생존율을 추정하거나 두 집단의 생존율을 비교할 때 정규분포 근사를 가정한 신뢰구간을 이용하는 데는 많은 어려움이 생긴다. 생존함수의 신뢰구간에 대한 중도절단을, 표본의 크기에 따른 다양한 상황의 모의실험을 통하여 Kaplan-Meier, Nelson, 적률 추정량 그리고 cox model의
${\beta}$ 을 가지고 붓스트랩을 이용한 신뢰구간과 비모수 신뢰구간, 우도비 신뢰구간의 실제 포함 확률을 비교해보고자 한다. -
현행 대학수학능력시험에서는 영역별로 선택과목제가 본격적으로 도입되어 시행되고 있으며, 과목별 난이도의 차이를 사후적으로 보정하기 위하여 표준점수제를 도입하여 운영하고 있다. 그러나 표준점수제를 실제 운영해본 결과 적지 않은 문제점들이 드러난바 있다. 이 연구에서는 이러한 표준점수제의 문제점을 집중 분석해 보고, 이에 대한 대안으로 가산점수제를 제안하여 지난 2005 수능 결과에 적용해 보았다. 그 결과 제안된 가산점수제는 기존의 표준점수제가 갖고 있던 여러 가지 문제점들을 크게 완화하거나 해소하는 것으로 나타났다.
웹 사이트를 이용하는 사용자들은 정보를 편리하게 얻고자 한다. 웹 사이트 운영자들은 웹 사이트를 이용하는 사용자들에게 차별화된 서비스를 제공하기 위해 사용자에 따른 패턴 분석을 해야 한다. 연관 규칙은 패턴 발견을 위해 데이터 마이닝 기법중의 하나이다. 사용자에 따른 패턴을 찾아내면, 사용자에 따른 차별화된 서비스를 제공할 수 있다. 사용자에 따른 패턴은 연관 규칙 탐색으로 알 수 있고, 웹 페이지 방문 시간을 고려한 연관 규칙 탐색 결과는 차별화된 웹 구조 서비스 및 추천 서비스가 가능하다.
$C^d-$ 분할표를 생성하여 그의 구조적 특징을 사영탐색-플롯(Projection Pursuit-plot)을 이용하여 조사하는 방법을 소개하고, 여러 시집에서 자주 인용된 김소월 시와 서정주 시들에 적용하여 유사성을 비교한다. -
주식가격은 일반적으로 정규분포를 따르지 않으며 이러한 비정규성을 띤 주식의 매매전략은 일반적으로 추세 지표, 변동성 지표, 거래량 지표 등을 토대로 수립되며 통계적이기 보다는 직관적이라고 볼 수 있다. 주식가격의 비정규성 문제는 주식가격의 정규화 과정을 통해서 해결 될 수 있으며 통계적인 매매전략은 정규화된 주식가격의 평균추세 지표 및 변동성 지표를 결합하여 작성될 수 있다. 본 논문은 정규화된 주식가격의 평균추세 지표와 변동성 지표를 결합한 매매전략을 제시하였고 이를 KOSPI200에 적용한 결과 성공적인 매매전략이 될 수 있는 가능성을 확인하였다.
Biplot is a graphical display of the rows and columns an
$n{\time}p$ data matrix. In particular, Gabriel(1981) suggested The MANOVA BIPLOT using singular value decomposition (SVD) with the averages of response variables according to treatment groups. But his biplot may cause wrong results by disregarding them when there exists covariate effects. In this paper, we will provide the MANCOVA BIPLOT based on the SVD with the parameter estimates for MANCOVA model when there exist covariate effects. -
지속성 외래 복막투석은 말기 신부전 환자들에게 널리 시행하는 신 대체 요법으로, 복막투석 환자에게서 주된 합병증으로 일어나는 단백질-열량 영양실조를 치료하기 위하여 아미노산을 복강 내로 주입하는 치료방법이다. 이현석 등(2004)의 연구에서는 아미노산 복막 투석액(IPAA)이 영양실조 환자들에게 실제로 영양상태에 미치는 영향을 평가하기 위하여 지속성 외래 복막투석 환자 43명을 12개월 동안 3개월 주기로 관측하여 얻어낸 반복측정자료를 바탕으로 IPAA의 효과 여부에 따라 반응군과 비반응군을 분류하였다. 본 논문에서는 이러한 두 그룹을 효과적으로 분류할 수 있는 분류기준변수들을 찾아내고 이 분류기준변수의 값을 바탕으로 새로운 환자에게 IPAA의 투여 여부를 진단할 수 있는 여러 분류방법들을 고찰하여 비교 연구하였다. 모수적인 방법으로 선형판별분석, 이차판별분석 및 로지스틱 판별분석을 소개하고 비모수적인 방법으로 support vector machine(SVM)을 소개하여 분류분석의 결과를 비교하여 두 그룹을 최소한의 오류로 분류하는 방법을 제안하였다.