• 제목/요약/키워드: diagnostic statistic

검색결과 44건 처리시간 0.021초

랜덤포레스트의 크기 결정을 위한 간편 진단통계량 (A simple diagnostic statistic for determining the size of random forest)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.855-863
    • /
    • 2016
  • 이 연구에서는 RF (random forest)의 크기 결정을 위한 간편 진단통계량을 제안한다. 이 방법은 현재까지 생성된 의사결정나무의 1등과 2등인 집단이 무한히 생성된 의사결정나무에서 차지하는 승리표차인 MV (margin of victory)에 근거한다. 따라서 MV가 음수이면 현재의 RF와 무한 RF 사이에 괴리가 생기는 것을 의미한다. 이 연구에서 제안하는 방법은 -MV가 고정된 작은 양수 (예를 들면 0.03)보다 큰 개체의 비율에 근거한다. 이 방법에 의한 적절한 통계량 도출과 함께 이 통계량의 이론적인 분포를 유도한다. 또한 최근에 제안된 진단통계량과 성능을 비교하는 모의실험을 수행한다.

Testing Homogeneity for Random Effects in Linear Mixed Model

  • Ahn, Chul H.
    • Communications for Statistical Applications and Methods
    • /
    • 제7권2호
    • /
    • pp.403-414
    • /
    • 2000
  • A diagnostic tool for testing homogeneity for random effects is proposed in unbalanced linear mixed model based on score statistic. The finite sample behavior of the test statistic is examined using Monte Carlo experiments examine the chi-square approximation of the test statistic under the null hypothesis.

  • PDF

A case-by-case version of CB statistic in biased estimation

  • Ahn, Byoung Jin
    • 품질경영학회지
    • /
    • 제19권2호
    • /
    • pp.40-51
    • /
    • 1991
  • The $C_B$ statistic, a generalization of Mallows's $C_L$ statistic, is developed to determine the shrinkage parameter. Since not all cases in a data set play an equal role in forming $C_B$, a subdivision of $C_B$ into individual components for each case is developed. This subdivision is useful both as an aid in understanding $C_B$ and as a diagnostic procedure.

  • PDF

회귀진단에서 이상치와 영향관측치를 동시에 발견하는 새로운 통계량에 관한 연구 (A study of a new statistic for detection of outliers and/or influential observations in regression diagnostics)

  • 강은미
    • 응용통계연구
    • /
    • 제6권1호
    • /
    • pp.67-78
    • /
    • 1993
  • 회귀진단에서 이상치와 영향을 많이 주는 측정치를 발견하는 새로운 통계량을 제안하였다. 이 제안된 통계량은 이상치를 찾는 측도와 영향추정치를 찾는 측도의 가중함으로 해석될 수 있으며, 가중치를 변화시킴으로써 이상치와 영향추정치들을 일목요연하게 찾아낼 수 있다는 장점이 있다. 씨뮬레이션을 이용하여 제안된 통계량의 분포형태를 살펴 보았다.

  • PDF

A Study on Detection of Outliers and Influential Observations in Linear Models

  • Kang, Eun M.;Park, Sung H.
    • 품질경영학회지
    • /
    • 제16권2호
    • /
    • pp.18-33
    • /
    • 1988
  • A new diagnostic statistic for detecting outliers and influential observations in linear models is suggested and studied in this paper. The proposed statistic is a weighted sum of two measures ; one is for detecting outliers and the other is for detecting influential ovservations. The merit of this statistic is that it is possible to distinguish outliers from influential observations. This statistic can be used for not only regression models but also factorial design models. A Monte Carlo simulation study is reported to suggest critical values for detecting outliers and influential observations for simple regression models when the number of observations is 11. 21, 31, 41 or 51.

  • PDF

Deletion diagnostics in fitting a given regression model to a new observation

  • Kim, Myung Geun
    • Communications for Statistical Applications and Methods
    • /
    • 제23권3호
    • /
    • pp.231-239
    • /
    • 2016
  • A graphical diagnostic method based on multiple case deletions in a regression context is introduced by using the sampling distribution of the difference between two least squares estimators with and without multiple cases. Principal components analysis plays a key role in deriving this diagnostic method. Multiple case deletions of test statistic are also considered when a new observation is fitted to a given regression model. The result is useful for detecting influential observations in econometric data analysis, for example in checking whether the consumption pattern at a later time is the same as the one found before or not, as well as for investigating the influence of cases in the usual regression model. An illustrative example is given.

Goodness-of Fit Tests in Regression via Nonparametric Function Techniques

  • Kim, Jong-Tae;Moon, Gyoung-Ae
    • Journal of the Korean Data and Information Science Society
    • /
    • 제5권2호
    • /
    • pp.95-106
    • /
    • 1994
  • A proposed test statistic is obtained by multiplying constant weights by the Neumann smooth type statistic discussed by Eubank and Hart(1993) in order to observe the effect of weight. It has very good results of power studies. Another advantage of this test is that it simultaneously provides an important diagnostic tools that can be used in many cases to determine how the model should be adjusted.

  • PDF

Diagnostics for Heteroscedasticity in Mixed Linear Models

  • Ahn, Chul-Hwan
    • Journal of the Korean Statistical Society
    • /
    • 제19권2호
    • /
    • pp.171-175
    • /
    • 1990
  • A diagnostic test for detecting nonconstant variance in mixed linear models based on the score statistic is derived through the technique of model expansion, and compared to the log likelihood ratio test.

  • PDF

랜덤포레스트의 크기 결정에 유용한 승리표차에 기반한 불일치 측도 (A measure of discrepancy based on margin of victory useful for the determination of random forest size)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.515-524
    • /
    • 2017
  • 이 연구에서는 분류를 위한 RF (random forest)의 크기 결정에 유용한 승리표차 MV (margin of victory)에 기반한 불일치 측도를 제안하고자 한다. 여기서 MV는 현재의 RF에서 1등과 2등을 차지하는 집단이 무한 RF에서 차지하는 승리표차이다. 구체적으로 -MV가 양수이면 현재와 무한 RF 사이에 1등과 2등인 집단에서 불일치가 생긴다는 점에 착안하여, max(-MV, 0)을 하나의 불일치 측도로 제안한다. 이 불일치 측도에 근거하여 RF의 크기 결정에 적절한 진단통계량을 제안하며, 또한 이 통계량의 이론적인 점근분포를 유도한다. 마지막으로 이 통계량을 최근에 제안된 진단통계량들과 소표본 하에서 성능을 비교하는 모의실험을 실행한다.

Influence Measures for the Likelihood Ratio Test on Independence of Two Random Vectors

  • Jung, Kang-Mo
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2001년도 추계학술대회
    • /
    • pp.13-16
    • /
    • 2001
  • We compare methods for detecting influential observations that have a large influence on the likelihood ratio test statistics that the two sets of variables are uncorrelated with one another. For this purpose we derive results of the deletion diagnostic, the influence function, the standardized influence matrix and the local influence. An illustrative example is given.

  • PDF