• 제목/요약/키워드: Imputing

검색결과 22건 처리시간 0.019초

A Study on Estimating Mean Lifetime After Modifying Censored Observations

  • Kim, Jinh-eum;Kim, Jee-hoon
    • 품질경영학회지
    • /
    • 제26권1호
    • /
    • pp.161-171
    • /
    • 1998
  • Kim and Kim (1997) developed a method of estimating the mean lifetime based on the augmented data after imputing censored observations. Assuming the linear relationship between lifetime and covariates, and then introducing the procedure of Buckley and James (1979) to estimate the mean lifetimes of censored observations, they proposed a mean lifetime estimator and its consistency under the regularity conditions. In this article, the Kim and Kim's estimator is compared with the estimator introduced by Gill (1983) through simulations under the various configurations. Also, their estimator is illustrated with two real data sets.

  • PDF

결측치 비율이 높은 시계열 데이터 분석 및 예측을 위한 머신러닝 모델 구축 (Development of a Machine Learning Model for Imputing Time Series Data with Massive Missing Values)

  • 고방원;한용희
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.176-182
    • /
    • 2024
  • 본 연구는 결측치 비율이 높은 시계열 데이터를 효과적으로 분석하고 예측할 수 있는 머신러닝 모델을 구축하기 위해 다양한 결측치 처리 방법을 비교 분석하였다. 이를 위해 PSMF(Predictive State Model Filtering), MissForest, IBFI(Imputation By Feature Importance) 방법을 적용하였으며, 이후 LightGBM, XGBoost, EBM(Explainable Boosting Machines) 머신러닝 모델을 사용하여 예측 성능을 평가하였다. 연구 결과, 결측치 처리 방법 중에서는 MissForest와 IBFI가 비선형적 데이터 패턴을 잘 반영하여 가장 높은 성능을 나타냈으며, 머신러닝 모델 중에서는 XGBoost와 EBM 모델이 LightGBM 모델보다 더 높은 성능을 보였다. 본 연구는 결측치 비율이 높은 시계열 데이터의 분석 및 예측에 있어 비선형적 결측치 처리 방법과 머신러닝 모델의 조합이 중요함을 강조하며, 실무적으로 유용한 방법론을 제시하였다.

가사노동의 정책과정 개발에 대한 연구 I :가사노동의 측정을 위한 제안 (The political issue on women's unpaid work I : Imputing the Value of Household Work)

  • 문숙재
    • 대한가정학회지
    • /
    • 제36권4호
    • /
    • pp.35-48
    • /
    • 1998
  • The imputation of monetary value of women's contribution to the informal economy for inclusion in satellite accounts to the formal System of National Accounts has been attempted along many methods. This is bases on official laborforce statistics and time-use survey. In this statistical system, household work is not an economic activity(or productive labor). Also, the clssification of activities involved in household work is different from that of sampling survey relating evaluation. The measurement of women's unpaid work is one of the important tasks for the improvement of women's status and the establishment of a development policy. To measure unpaid work in the economic terms, we should take following measures; 1) develop satellite or other official accouts to measure unpaid work outside national accounts. 2) conduct a nation-wide time-use survey to measure the unpaid work. 3) develp a proper classificaition of activities for time-use statistics. 4) reexamine the minimum time criterion. 5) determine a proper method of valuing along the law system.

  • PDF

A modified partial least squares regression for the analysis of gene expression data with survival information

  • Lee, So-Yoon;Huh, Myung-Hoe;Park, Mira
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1151-1160
    • /
    • 2014
  • In DNA microarray studies, the number of genes far exceeds the number of samples and the gene expression measures are highly correlated. Partial least squares regression (PLSR) is one of the popular methods for dimensional reduction and known to be useful for the classifications of microarray data by several studies. In this study, we suggest a modified version of the partial least squares regression to analyze gene expression data with survival information. The method is designed as a new gene selection method using PLSR with an iterative procedure of imputing censored survival time. Mean square error of prediction criterion is used to determine the dimension of the model. To visualize the data, plot for variables superimposed with samples are used. The method is applied to two microarray data sets, both containing survival time. The results show that the proposed method works well for interpreting gene expression microarray data.

수정된 BLS 가중치보정법 (Modified BLS Weight Adjustment)

  • 박정준;조기종;이상은;신기일
    • Communications for Statistical Applications and Methods
    • /
    • 제18권3호
    • /
    • pp.367-376
    • /
    • 2011
  • BLS 가중치보정법은 사업체 조사 시 발생한 무응답 및 이상점을 처리하기 위해 사용하는 가중치 보정방법중의 하나이다. 최근의 연구에 의하면 총계 추정에 있어 BLS 무응답 가중치보정법의 결과가 비추정법을 사용한 대체 결과와 일치하는 것으로 알려졌다. 본 논문에서는 이상점과 무응답이 동시에 있는 경우, BLS 무응답 가중치보정법을 비추정 대체법으로 바꾸어 총계를 추정하는 새로운 방법을 제안하였다. 매월 노동 통계 자료를 이용한 모의 실험을 통하여 제안된 방법의 우수성을 확인하였다.

UTIS 구간통행속도 결측치 보정모델 (Imputation Model for Link Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;배광수
    • 한국ITS학회 논문지
    • /
    • 제10권6호
    • /
    • pp.63-73
    • /
    • 2011
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 미통과, 시스템 H/W 및 S/W 오작동 등의 이유로 UTIS 산출 구간통행속도가 도로의 일부 링크에서 결측되는 현상이 나타나고 있다. 본 논문에서는 이러한 결측구간에 신뢰성 높은 교통정보를 제공하기 위한 구간통행속도 추정 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 알고리즘이 추정한 속도들의 정학도가 93.6%로 분석되었다. 이는 새로운 알고리즘이 결측구간의 속도를 비교적 정확하게 추정하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

A GEE approach for the semiparametric accelerated lifetime model with multivariate interval-censored data

  • Maru Kim;Sangbum Choi
    • Communications for Statistical Applications and Methods
    • /
    • 제30권4호
    • /
    • pp.389-402
    • /
    • 2023
  • Multivariate or clustered failure time data often occur in many medical, epidemiological, and socio-economic studies when survival data are collected from several research centers. If the data are periodically observed as in a longitudinal study, survival times are often subject to various types of interval-censoring, creating multivariate interval-censored data. Then, the event times of interest may be correlated among individuals who come from the same cluster. In this article, we propose a unified linear regression method for analyzing multivariate interval-censored data. We consider a semiparametric multivariate accelerated failure time model as a statistical analysis tool and develop a generalized Buckley-James method to make inferences by imputing interval-censored observations with their conditional mean values. Since the study population consists of several heterogeneous clusters, where the subjects in the same cluster may be related, we propose a generalized estimating equations approach to accommodate potential dependence in clusters. Our simulation results confirm that the proposed estimator is robust to misspecification of working covariance matrix and statistical efficiency can increase when the working covariance structure is close to the truth. The proposed method is applied to the dataset from a diabetic retinopathy study.

한국인 상용 식품의 아연함량표를 보완하여 평가한 한국농촌성인의 아연 섭취 실태 (Supplementation of Zinc Nutrient Database and Evaluation of Zinc Intake of Korean Adults Living in Rural Area)

  • 이주연
    • Journal of Nutrition and Health
    • /
    • 제31권8호
    • /
    • pp.1324-1377
    • /
    • 1998
  • This study was conducted for two purposes ; (1) to develop a database for zinc levels in commonly usef Korean food items ; and (2) to calculated the zinc intake fo Korean adults living in a rural area. The currently used Korean food compositinotable was supplemented in term sof zinc content using several methods ; (1) analyzing 98 Korean Food items frequently consumed by Korean adults living in rural area. ; (2) adapting values from U.S Minnesota for 71 items ; and (3) imputing values from similar food for 282 items. A new zinc nutrient databse was constructed including zinc contentrs of 1,195 food items. Zinc intake of rural Korean adults was estimated by a 240hours recall method from 2 ,037 adults over 30 over 30years of age in Yeonchon -gun , Kyunggi province of Korea. Mean daily zinc intake of all subjects was 61mg an dmean intake level of males (7.0mg/day, 46.85 of RDA) was significantly thigher than females(5.2mg/day, 43.0% of RDA). Subjects in their 40's had the highest zinc intak ewhile those over 70 years of age consumed the least amount of zinc. The food group that contributed most to the dietary ainc intake of subjects was cereals and grain products supplying 38% of total zinc intake. The next most important group for zinc intak ewas the meat, poultry , and product group supplying 26% ot total intake. This group was followed by fishes and shellfishes, legumes and their products, and vegetales . For individual food items , reicecontribued most, supplying 27% of total zinc intake follwoed by beef(10%) and prok(9%) . Altogether, plant foods supplied 68% of zinc intake suggesting that the bioabailability of dietary ainc is low. In conclusion, these results show ethat the zinc intake of rural Korean adults is low and that sources of dietary zinc are mainly plant foods, suggesting low bioavailability . Further studies are needed to determine zinc intake and status of Korean population. The zinc database developed in this study will be very valuable for such studies.

  • PDF

상시조사 교통량 자료의 결측 보정에 관한 연구 (A Study on Imputing the Missing Values of Continuous Traffic Counts)

  • 이상협;신재명
    • 대한토목학회논문집
    • /
    • 제33권5호
    • /
    • pp.2009-2019
    • /
    • 2013
  • 교통량은 교통망 계획, 도로 설계, 도로 관리 등에 직접적으로 활용되는 중요한 기초자료이다. 교통량은 고정식 교통량조사 장비를 설치하여 연속적인 자료를 수집하는 상시조사와 특정일을 조사하는 수시조사로 구분되어 조사되고 있다. 상시조사의 경우 조사 지점에 설치되어 있는 장비의 고장이나 오작동 등으로 인하여 교통량 자료의 결측이 발생하며, 이러한 결측을 보정하기 위하여 다양한 방법이 적용되어 왔다. 본 연구에서는 결측 발생일 전 후의 자료를 활용하는 응용 지수평활화법을 제안하였으며, 평가 결과 교통량 변동계수가 낮은 경우 보정의 정확성이 제고됨을 알 수 있었다. 게다가 지점의 교통량 변동성이 결측 보정의 정확성에 영향을 미치는 중요한 요인으로 작용한다는 것을 확인하였다. 따라서 교통량 결측 보정의 신뢰성을 높이기 위해서는 지점별-시기별 결측 보정 방법이 달리 적용되어야 할 것이다.

연속적 결측이 존재하는 기온 자료에 대한 결측복원 기법의 비교 (A comparison of imputation methods for the consecutive missing temperature data)

  • 김희경;강인경;이재원;이영섭
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.549-557
    • /
    • 2016
  • 장기간의 기후 자료가 누적되다 보면 자료의 수집과정에서 시스템적 오류나 측정 장비의 고장 등으로 인하여 연속적 결측이 종종 발생하게 된다. 연속적인 결측 형태를 갖는 경우 시계열 결측 자료를 대체하는 것에 어려움이 따른다. 이러한 경우 참조시계열을 이용하여 결측값을 대체할 수 있다. 참조시계열은 결측이 발생한 시계열과 관련성이 높은 주변지점의 시계열로 구성할 수 있다. 본 연구에서는 결측값을 대체시킬 수 있는 3가지 결측복원 기법-수정된 정규화비율 방법, 회귀 방법, IDW 방법-을 비교하는 시뮬레이션을 수행하였다. 우리나라 14개 지점의 기후관측소의 일평균기온값을 대상으로 비교한 결과 남쪽 해안가에 위치한 기후관측소의 자료에 대해서는 IDW 방법이 가장 정확한 것으로 나타났으며, 그 외 지역의 기후관측소 자료에 대해서는 회귀 방법이 가장 정확한 것으로 나타났다.