• 제목/요약/키워드: data bias

검색결과 1,764건 처리시간 0.032초

Investigation of multiple imputation variance estimation

  • 김재광
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 춘계 학술발표회 논문집
    • /
    • pp.183-188
    • /
    • 2002
  • Multiple imputation, proposed by Rubin, is a procedure for handling missing data. One of the attractive parts of multiple imputation is the simplicity of the variance estimation formula. Because of the simplicity, it has been often abused and misused beyond its original prescription. This paper provides the bias of the multiple imputation variance estimator for a linear point estimator and discusses when the bias can be safely neglected.

  • PDF

Selection of Data-adaptive Polynomial Order in Local Polynomial Nonparametric Regression

  • Jo, Jae-Keun
    • Communications for Statistical Applications and Methods
    • /
    • 제4권1호
    • /
    • pp.177-183
    • /
    • 1997
  • A data-adaptive order selection procedure is proposed for local polynomial nonparametric regression. For each given polynomial order, bias and variance are estimated and the adaptive polynomial order that has the smallest estimated mean squared error is selected locally at each location point. To estimate mean squared error, empirical bias estimate of Ruppert (1995) and local polynomial variance estimate of Ruppert, Wand, Wand, Holst and Hossjer (1995) are used. Since the proposed method does not require fitting polynomial model of order higher than the model order, it is simpler than the order selection method proposed by Fan and Gijbels (1995b).

  • PDF

Estimation for scale parameter of type-I extreme value distribution

  • Choi, Byungjin
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권2호
    • /
    • pp.535-545
    • /
    • 2015
  • In a various range of applications including hydrology, the type-I extreme value distribution has been extensively used as a probabilistic model for analyzing extreme events. In this paper, we introduce methods for estimating the scale parameter of the type-I extreme value distribution. A simulation study is performed to compare the estimators in terms of mean-squared error and bias, and the obtained results are provided.

Reducing Bias of the Minimum Hellinger Distance Estimator of a Location Parameter

  • Pak, Ro-Jin
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권1호
    • /
    • pp.213-220
    • /
    • 2006
  • Since Beran (1977) developed the minimum Hellinger distance estimation, this method has been a popular topic in the field of robust estimation. In the process of defining a distance, a kernel density estimator has been widely used as a density estimator. In this article, however, we show that a combination of a kernel density estimator and an empirical density could result a smaller bias of the minimum Hellinger distance estimator than using just a kernel density estimator for a location parameter.

  • PDF

Interval Estimations for Reliablility in Stress-Strength Model by Bootstrap Method

  • Lee, In-Suk;Cho, Jang-Sik
    • Journal of the Korean Data and Information Science Society
    • /
    • 제6권1호
    • /
    • pp.73-83
    • /
    • 1995
  • We construct the approximate bootstrap confidence intervals for reliability (R) when the distributions of strength and stress are both normal. Also we propose percentile, bias correct (BC), bias correct acceleration (BCa), and percentile-t intervals for R. We compare with the accuracy of the proposed bootstrap confidence intervals and classical confidence interval based on asymptotic normal distribution through Monte Carlo simulation. Results indicate that the confidence intervals by bootstrap method work better than classical confidence interval. In particular, confidence intervals by BC and BCa method work well for small sample and/or large value of true reliability.

  • PDF

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

선형 측정 기법에 의해 발생하는 불연속면 방향성의 왜곡 : 서부 North Carolina의 암반 사면에서의 예 (Sampling Bias of Discontinuity Orientation Measurements for Rock Slope Design in Linear Sampling Technique : A Case Study of Rock Slopes in Western North Carolina)

  • 박혁진
    • 한국지반공학회논문집
    • /
    • 제16권1호
    • /
    • pp.145-155
    • /
    • 2000
  • 불연속면의 방향성은 암반의 과도변형이나 안정성에 영향을 미치는 특성 때문에 암반사면의 안정성 평가에 있어서 매우 중요한 역할을 한다. 불연속면의 방향측정에는 시추공(borehole)을 이용한 측정법이나 노두에서의 scanline을 이용하는 측정법과 같은 선형 측정법이 보편적으로 이용되나 이러한 측정 기법을 이용하여 획득한 자료들은 측선의 방향에 따라 쉽게 왜곡된다. 이러한 왜곡을 수정하기 위한 가중치 (weighting factor)가 적용되어도 특정 방향의 측선을 따라 자료를 획득할 경우 그 왜곡은 쉽게 보정되어지지 않는다. 즉, 불연속면의 방향자료 수집을 위해 이용된 선형 측선이 불연속면의 방향과 평행할 경우 대부분의 측선과 평행한 불연속면들은 조사 결과에 포함되지 않으며 이러한 현상은 불연속면들의 방향성 파악에 심각한 오류를 발생시킬 수 있다. 본 연구에서는 수직 측선 (borehole)에 의해 수집되어진 방향자료들과 수평 측선 (scanline)에 의해 수집되어진 방향자료들을 비교하였다. 서로 다른 두 방법에 의해 수집되어진 방향자료들은 큰 차이를 보이며, 이로 인해 불연속면들의 대표적인 방향성 결정에 장애가 되어진다. 불연속면의 경사각 분포와 수평과 수직 측선에 의해 수집되어진 자료들의 비교를 위해 등면적 극 평사투영망(polar stereo net)을 이용하였다.

  • PDF

대학생의 선호직업유형이 확증편향과 취업불안에 미치는 영향 (The Effects of Preferred Job Type of University Students on the Confirmation Bias and Job Anxiety)

  • 노선희;김기승
    • 한국산학기술학회논문지
    • /
    • 제20권8호
    • /
    • pp.190-199
    • /
    • 2019
  • 본 연구는 대학생의 선호직업유형이 진로결정과정에서 확증편향과 취업불안에 미치는 영향을 분석하는 양적연구이다. 본 연구 설문조사는 서울과 수도권에 소재한 대학교 재학생을 대상으로 2017. 7. 10~8. 8까지 5주 동안 500부의 설문지를 배포하였다. 이 중 유효한 482명을 연구대상으로 데이터 코딩(data coding)과 데이터 크리닝(data cleaning)을 거쳐, SPSS 18.0 통계와 AMOS 18.0 프로그램으로 분석하였다. 본 연구의 주요결과는 확증편향에 대한 선호직업유형 중 사업형은 정(+)적 직접영향력(${\beta}=.374$), 자유형은 정(+)적 직접영향력(${\beta}=.326$), 직장형은 부(-)적 직접 영향력(${\beta}=-.274$)을 보였다. 취업불안은 직장형만 더 가중되며, 확증편향은 사업형과 자유형이 노력이나 성취동기에서 원인을 찾는 반면, 직장형은 사회적 환경 및 구조적 문제로 인식한다는 결과를 보여주었다. 결국, 확증편향과 취업불안은 정도의 차이가 있을 뿐 모든 사람이 가지고 있으며 여기에 개인별 선호 직업유형이 영향을 미친다는 것이다. 대학생들의 선호직업유형이 취업준비과정에서 갖는 확증편향과 불안감을 이해하고 취업불안감소에 도움이 될 수 있음이 검증되었으며, 진로지도에 유용하게 활용될 것으로 기대된다.

Approximate MLE for the Scale Parameter of the Weibull Distribution with Type-II Censoring

  • Kang, Suk-Bok;Kim, Mi-Hwa
    • Journal of the Korean Data and Information Science Society
    • /
    • 제5권2호
    • /
    • pp.19-27
    • /
    • 1994
  • It is known that the maximum likelihood method does not provide explicit estimator for the scale parameter of the Weibull distribution based on Type-II censored samples. In this paper we provide an approximate maximum likelihood estimator (AMLE) of the scale parameter of the Weibull distribution with Type-II censoring. We obtain the asymptotic variance and simulate the values of the bias and the variance of this estimator based on 3000 Monte Carlo runs for n = 10(10)30 and r,s = 0(1)4. We also simulate the absolute biases of the MLE and the proposed AMLE for complete samples. It is found that the absolute bias of the AMLE is smaller than the absolute bias of the MLE.

  • PDF

On Estimating the Odds Ratio between Male and Female Unemployment Rate in Small Area

  • Park, Jong-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권4호
    • /
    • pp.1029-1039
    • /
    • 2006
  • There are different kinds of methods to estimate the odds ratio for unemployment statistics in small areas, namely, the composite estimator, the Woolf estimator and the Mantel-Haenszel estimator. We can compare the reliability of these estimators according to the bias and MSE. The estimation procedures considered by this study have been applied to estimate the bias and MSE of the odds ratio between the male and female unemployment rate in some small areas. The Woolf estimator or the Mantel-Haenszel estimator is more stable than the composite estimator, but all these three estimators are similar to each other from the aspect of efficiency.

  • PDF