Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
Domain
- Mathematics > Models/Data analysis
2001.11a
-
We begin with a brief review of some important advances made in statistical theory over the last decade. The choice of topics is decidedly influenced by personal interests. Based on this review, we then propose some possible scenarios about the future of statistics.
-
우리나라의 공식통계 발전 과정을 제도적 측면과 내용의 측면에서 살펴보고, 공식 통계가 작성되는 현황을 알아본다. 또한 앞으로 공식통계가 발전되기 위한 조건들을 살펴본다.
-
조사과정에서 필연적으로 발생하는 무응답을 보정하기 위해 보조정보를 사용한다. 이 때, 이용 가능한 보조정보의 차원이 크면, 계산과정에서 많은 시간이 소요되며 데이터를 다루기가 매우 어렵다. 또한 추정량의 분산이 보조정보의 차원에 의존하기 때문에 과소추정의 문제가 발생한다. 이러한 문제를 해결하기 위해 무응답 보정에서 적절한 보조정보의 선택 방법을 제안하였고, 이에 대한 효율성을 모의실험을 통해 살펴보았다.
-
이 논문에서 문장특성을 파악하는 방법으로 주로 이용한 것은 특정문자의 출현율이다. 어떤 사람이나 그 글 속에는 자신의 개성이 들어있다. 문장의 길이를 비롯하여 문장의 구조나 어휘량, 유의어 중에서 선호하는 글자, 평서문이나 의문문의 사용, 품사의 사용, 문두나 문말에 오는 글자 등에서 각각의 개성이 드러난다. 그 중에서도 접속사나 조사, 접두어, 접미어 등 상대적으로 의미적인 요소보다는 형식적인 요소에 가까운 영역에서 문장의 특성이 두드러지는 것으로 보고되어 있다, 이런 특징을 이용하여 화랑세기의 저작자의 진위를 추론하고자 한다.
-
An endpoint detection method for speech signals utilizing hidden Markov model(HMM) is proposed. It turns out that the proposed algorithm is quite satisfactory to apply isolated word speech recognition.
-
최근 대부분 기업에서는 통합 데이터베이스 정보를 모델화하고 이를 전략적으로 활용하는 움직임이 가속화되고 있다. 이는 고객과의 커뮤니케이션 및 관계유지로 대변되는 CRM(Customer Relationship Management)이 기업들의 가장 중요한 이슈 중 하나로 부각되고 있기 때문이다. 이런 관점에서 본 연구에서는 CRM의 핵심 요소인 데이터마이닝 기법을 이용하여 개발한 고객 스코어링 모델을 마케팅 층(Marketing Layor)에 연결해주는 스코어링 캠페인 시스템을 개발 하고자 한다. 개발한 시스템은 고객 스코어링 결과 및 캠페인 대상자 선정 작업을 쉽게 할 수 있도록 GUI환경에서 제공해 줌으로서 일반 사용자들이 쉽게 활용할 수 있도록 하였다.
-
In this study we focus on variable selection in decision tree growing structure. Some of the splitting rules and variable selection algorithms are discussed. We propose a competitive variable selection method based on Kruskal-Wallis test, which is a nonparametric version of ANOVA F-test. Through a Monte Carlo study we note that CART has serious bias in variable selection towards categorical variables having many values, and also QUEST using F-test is not so powerful to select informative variables under heavy tailed distributions.
-
공간자료의 예측문제에 있어 전통적 예측방법인 크리깅방법과 최근 통계적문제 적용되기 시작한 신경망분석방법 간의 비교를 사례연구를 통해 행하였다. 일반적으로 크리깅에 의한 선형예측은 공간자료에 대한 일반적 통계모형으로서 간주되어 왔다. 한편 예측문제에 있어 뉴럴네트워크에 기초한 비모수적 방법이 관심의 대상이 되고 있으며 특히 대용량 자료의 경우 데이터마이닝 기법의 한 분야로 널리 사용되고 있는 실정이다. 본 연구에서는 공간 자료의 예측에 있어 유전자 알고리즘을 신경망분석 모형을 결합하여 기존의 크리깅방법과의 예측력을 비교한다.
-
본 연구의 주된 목표는 1997년 주가자료를 데이터마이닝 기법인 로지스틱모형, 의사결정트리, 신경망, SVM(support vector machine), 뉴로퍼지모형을 사용하여 분석한 후 우리나라 경제상황을 진단하고 예측하는데 가장 적합한 모형을 찾고 그 모형을 해석하는데 있다. 1997년 주가자료를 훈련자료로 간주하여 그 당시 경제 상황에 따라 적절한 구간으로 나누고 훈련시킨 결과 중요한 변수로는 주가지수, 등락률 10일 이동분산, 10일 이동분산의 변동비로 나타났으며 적절한 기법으로는 의사결정트리, 신경망, SVM임을 알 수 있다. 1997년 이외의 주가자료를 데이터마이닝 기법(신경망, 의사결정트리, SVM)에 적용한 결과, 우리나라 경제상황을 고려해 볼 때 신경망이 가장 정확도가 좋은 기법으로 보여진다.
-
본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.
-
m=2 또는 n=2이고,
${\lambda}_1<{\lambda}_2$ 인 그룹분류가능계획을 매개디자인으로 사용한 완전이면교배가 A-최적, D-최적임을 보였다. 또한,${\lambda}_2={\lambda}_1+1$ 이면 일반화된 최적계획이 됨을 보였다. -
라틴 하이퍼큐브 실험계획은 전산실험을 위하여 Mckay, Beckman과 Conover(1979)에 의해 고안된 방법으로 실험을 한번 시행하는데 많은 시간과 비용이 들거나 인자가 많은 실험에 효율적으로 사용할 수 있다. 하지만 이 실험계획 역시 실험영역 전체에서 골고루 배치되지 않을 가능성이 있으므로 이를 보완하려는 시도가 이루어져 왔으며, 여기서는 good lattice points(glp)와 계통추출을 응용하여 격자기반(lattice-based) Lhd의 두 가지 방법을 제안하였다. 모의실험 결과 glp 실험계획을 응용한 "방법 1"은 모형을 가정한 엔트로피에 기초한 최적 기준으로 검토한 경우 우수하였다. "방법 2"는 표본조사에 널리 쓰이는 계통추출을 응용하였으며 입력변수가 각기 다른 9개의 실험함수에 관하여 표본 평균의 추정치와 분산, MSE를 비교한 결과, 다른 실험계획들보다 우수하였다. 이 결과는 실험점이 실험영역 전체에서 골고루 퍼져서 나타난 것으로 보이며, 향후 전산실험계획에서의 응용을 기대할 수 있다.
-
In this paper, partial diallel crosses designs are proposed. These designs for estimating general combining abilities are constructed by using m-associate class partially balanced incomplete block designs. Also, the efficiency of the partially diallel crosses designs obtained through this method is reported in table.
-
본 논문에서는 혼합보증기간이 있는 수리 가능한 시스템에 대한 최적의 교체정책을 제안한다. 이 교체정책은 보증기간이 재생되는 경우와 재생되지 않는 두 가지 경우에 대해서 고려되며, 최적의 교체주기를 결정하기 위해서 사용자 관점에서의 단위 시간당 기대비용을 사용한다. 시스템의 고장시간이 와이블 분포를 할 때 수치적 예를 통해서 제안된 최적의 교체정책을 설명한다.
-
projection pursuit을 이용하여 이변량 정규분포의 적합도 검정을 위한 통계량을 제안한다. 기본적인 생각은 이변량 정규분포의 가정하에 표준정규분포를 갖는 모든 선형조합을 고려하여 이들의 순서통계량과 이론적인 분위수를 비교하는 것이다. 이와 같이 제안된 통계량은 선형변환에 대해서 불변(invariant)이다. 본 논문에서는 제안된 통계량의 극한분포를 적절한 Gaussian process의 적분으로 표현한다.
-
We can obtain SLLN's for fuzzy random variables with respect to the new metric
$d_s$ on the space F(R) of fuzzy numbers in R. In this paper, we obtain a SLLN for convex tight random elements taking values in F(R). -
A dataset having missing observations is often completed by using imputed values. In this paper the performances and accuracy of complete case methods and four imputation procedures are evaluated when missing values exist only on the response variables in the Weibull regression model. Our simulation results show that compared to other imputation procedures, in particular, hotdeck and Weibull regression imputation procedure can be well used to compensate for missing data. In addition an illustrative real data is given.
-
본 논문은 microarray를 분석하기위한 표준화에 대한 여러 방법들을 소개하고 비교해보았다. Microarray 연구는 Human Genome Project에서 파생된 여러 생명공학 기술 중 가장 널리 사용되는 기술로 기존에는 하지 못했던 총체적인 유전자의 발현상황을 탐색할 수 있다는 장점을 지니고 있으나, 자료들에 일정한 패턴이 나타나거나 잡음이 첨가되어 정보의 추출이 용의하지 않다는 단점을 지니고 있다. 특히 자료에 일정한 패턴이 있는 경우에 올바르지 못한 결론을 이끌어낼 수도 있기에 이 패턴을 제거하는 표준화작업은 microarray 분석에 있어서 매우 중요한 처리과정이다. 본 논문에서는 표준화방법들을 소개하고 각각 가지고 있는 장단점을 실제 국내에서 얻어진 자료를 통해 비교하였고, 그 결과 LOWESS 적합을 통한 표준화방법이 타 방법에 비해 유용한 점이 많음을 확인할 수 있었다.
-
최근의 많은 기업에서는 방대한 고객 데이터베이스를 활용하여 자사의 경쟁력을 갖추는 방안으로써 데이터마이닝을 선택하고 있다. 본 연구에서는 데이터마이닝을 활용해 손해보험사의 데이터베이스를 분석하여 자동차보험 고객의 이탈을 방지하는 이탈고객 스코어링 모델을 개발하였다. 분석방법론으로는 의사결정나무와 로지스틱 회귀분석을 사용하였으며 기업에서의 데이터마이닝을 위한 일련의 과정을 상세히 기술하고 기업의 데이터베이스가 가지고 있는 문제점을 지적하였다.
-
데이터 마이닝에서 분석의 대상으로 하는 대용량 자료에는 연속형 자료와 범주형 자료가 모두 포함된다. 전통적인 군집분석은 연속형 자료를 대상으로 하는 방법들이다. 본 연구에서는 범주형 자료를 대상으로 하는 군집분석방법인 K-모드 알고리즘과 락(ROCK) 알고리즘을 비교
${\cdot}$ 분석하였다. 그리고 두 알고리즘이 갖는 방법론적인 단점을 보안하여 군집의 효과를 높일 수 있는 개선 방안을 제안하였다. -
최근 정보기술 분야의 급속한 발전과 더불어 기업 및 사회 각 분야의 데이터베이스에 쌓이고 있는 데이터의 양도 급격히 증가하고 있으며, 이러한 관점에서 데이터마이닝이 큰 주목을 받고 있다. 따라서 다양한 데이터마이닝 기법들이 연구되고 있으며 데이터마이닝을 보다 손쉽게 수행할 수 있는 여러 상용화된 소프트웨어들이 개발되어 있다. 이들 데이터마이닝 소프트웨어들은 여러 가지 관점에서 서로 다른 모습을 가지고 있는데, 따라서 이들의 기능과 성능은 많은 사용자들의 큰 관심이 되고 있다. 본 연구에서는 현재 널리 사용되고 있는 몇 가지 데이터마이닝 소프트웨어들에 대해 기능상의 차이점 및 실제 사용에 있어서의 효율 등을 비교하고자 한다.
-
다원분할표에서 범주들의 대응관계를 그래프적으로 보여주는 다중대응분석(multiple correspondence analysis)은 주결여성(principal inertia)이 총결여성(total inertia)에서 차지하는 비율이 전반적으로 낮아 설명력(goodness-of-fit)이 낮은 2차원의 대응분석그림을 얻게 된다. 이를 극복하기 위해 Benzecri의 공식을 사용하면 낮은 주결여성을 높이고 새로운 2차원 대응분석그림을 얻을 수 있다. 그러나 이 새로운 대응분석그림도 범주들의 대응관계를 명확히 보여주지는 못한다(Greenacre and Blasius, 1994, chapter 10). 앤드류 플롯(Andrews plot)을 이용하여 범주들의 군집화(clustering)로 다중대응분석을 재해석 하고자 하나 범주의 수가 많은 경우 해석상 어려움이 따른다. 본 소고에서 이와 같은 경우 K-평균 군집분석을 활용하여 다중대응분석의 해석을 용이하게 하고자 한다.
-
Schafer and Shenker(2000) mentioned the one of analytic imputation technique involving conditional means. We derive an approximate moments of a variance estimate with imputed conditional means.
-
In this paper, we consider the problem of testing for parameter changes in time series models based on a sequential test. Although the test procedure is well-established for the mean and variance change, a general parameter case has not been discussed in the literature. Therefore, we develop a sequential test for parameter changes in a more general framework.
-
In general, the imputation problems which are caused from survey nonresponse have been studied for being based on ignorable cases. However the model based approach can be applied to survey with nonresponse suspected of being nonignorable. Here in this study, we will make the nonresponse for nonignorable into ignorable cell using adjustment cell approach, then we can applied the ignorable nonresponse method. For data sets of each nonresponse cells are simulated from normal distribution.
-
Data Mining is used to discover patterns and relationships in huge amounts of data. Researchers in many different fields have shown great interest in data mining analysis. Using the classification technique of data mining analysis, the available model for Receiver Operating Characteristic(ROC) method is presented. We present that this may help analyze result of data mining techniques.
-
1997년 IMF 경제위기 이후 우리나라의 금융산업은 급격한 변화를 겪고 있다. 지난 4년간 은행들을 비롯한 금융기관들이 대형화를 통한 경쟁력 강화를 위해 합병이 실시되었다. 은행합병의 궁극적인 목적은 합병에 의해 규모를 대형화하고 업무범위를 다양화하여 수익규모를 증대시키고 수익원을 다원화하는 한편, 경영자원의 투입과 활용을 효율화하고 시장지배력을 확충하여 경영성과를 제고함으로써 기업가치를 증진시키는데 있다고 할 수 있다. 본 연구에서는 1997년 이후에 본격적으로 이루어진 합병은행들을 대상으로 맘퀴스트
${\ulcorner}$ Malmquist${\lrcorner}$ 총요소생산성(Total Factor Productivity) 지수를 사용하여 그 성과를 측정해 보았다.