• 제목/요약/키워드: Model-based imputation

검색결과 32건 처리시간 0.032초

Estimation of Seroconversion Dates of HIV by Imputation Based on Regression Models

  • Lee, Seungyeoun
    • Communications for Statistical Applications and Methods
    • /
    • 제8권3호
    • /
    • pp.815-822
    • /
    • 2001
  • The aim of this study is to estimate the seroconversion date of the human immunodeficiency virus(HIV) infection for the HIV infected patients in Korea. Data are collected from two cohorts. The first cohort is a group of "seroprevalent" patients who were seropositive and AIDS-free at entry. The other is a group of "seroincident" patients who were initially seronegative but later converted to HIV antibody-positive. The seroconversion dates of the seroincident cohort are available while those of the seroprevalent cohort are not. Estimation of seroconversion date is important because it can be used to calculate the incubation period of AIDS which is defined as the elapsed time between the HIV infection and the development of AIDS. In this paper, a Weibull regression model Is fitted for the seroincident cohort using information about the elapsed time since seroconversion and the CD4$^{+}$ cell count.The seroconversion dates for the seroprevalent cohort are imputed on the basis of the marker of maturity of HIV infection percent of CD4$^{+}$cell count.unt.

  • PDF

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

Effect of zero imputation methods for log-transformation of independent variables in logistic regression

  • Seo Young Park
    • Communications for Statistical Applications and Methods
    • /
    • 제31권4호
    • /
    • pp.409-425
    • /
    • 2024
  • Logistic regression models are commonly used to explain binary health outcome variable using independent variables such as patient characteristics in medical science and public health research. Although there is no distributional assumption required for independent variables in logistic regression, variables with severely right-skewed distribution such as lab values are often log-transformed to achieve symmetry or approximate normality. However, lab values often have zeros due to limit of detection which makes it impossible to apply log-transformation. Therefore, preprocessing to handle zeros in the observation before log-transformation is necessary. In this study, five methods that remove zeros (shift by 1, shift by half of the smallest nonzero, shift by square root of the smallest nonzero, replace zeros with half of the smallest nonzero, replace zeros with the square root of the smallest nonzero) are investigated in logistic regression setting. To evaluate performances of these methods, we performed a simulation study based on randomly generated data from log-normal distribution and logistic regression model. Shift by 1 method has the worst performance, and overall shift by half of the smallest nonzero method, replace zeros with half of the smallest nonzero method, and replace zeros with the square root of the smallest nonzero method showed comparable and stable performances.

Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법 (An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm)

  • 최보승;유현상;윤용화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.587-598
    • /
    • 2016
  • 각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

공장용지 수요 추정 모형 개발 및 수요예측 (Forecasting the Demand Areas of a Factory Site: Based on a Statistical Model and Sampling Survey)

  • 정형철;한근식;김성용
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.465-475
    • /
    • 2011
  • 본 연구에서는 공장용지 면적을 예측하기 위한 통계적 추정을 다루었다. 공장용지에 대해서는 1981년부터 2003년까지 자료가 존재하며, 2004년 이후에는 공장용지보다 좁은 개념인 산업단지 면적에 대한 조사 자료만 존재한다. 한국산업단지공단에서는 2009년 10월 표본조사를 실시하여 당해의 공장용지 면적을 추정하였으며, 동 조사 시 향후 5개년의 공장용지면적에 대한 수요를 조사한 바 있다. 본 연구에서는 과거 절단된 자료를 여러 통계모형을 사용하여 적절히 대체할 수 있는 수요예측모형을 도출하고, 표본조사에 의한 추정치와 통계적 모형에 의한 대체값들을 융합하는 평활기법으로 향후 공장용지 수요를 예측하는 방법을 다루었다.

데이터 오·결측 저감 정제 알고리즘 (Data Cleansing Algorithm for reducing Outlier)

  • 이종원;김호성;황철현;강인식;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.342-344
    • /
    • 2018
  • 본 논문에서는 기존 오 결측 데이터 분석 기법인 평균 대체법, 상관계수 수치분석, 그래프 상관성 분석 및 통계 전문가 분석 등 통계적 방법으로 대체 가능성을 조사하여 정수처리 공정에서 계측되는 각종 이상 데이터를 정제하기 위한 방법을 다양한 분석연구로 진행하였다. 또한 물 정보 데이터 오 결측 저감 정제 알고리즘의 신뢰성 및 검증에 있어 분위수 패턴과 딥러닝 기반의 LSTM 알고리즘으로 동작하는 시스템을 모델링하고, Keras, Theano, Tensorflow 등의 오픈 소스 라이브러리로 구현할 수 있는 체계를 연구하였다.

  • PDF

Whole-genome sequence association study identifies cyclin dependent kinase 8 as a key gene for the number of mummified piglets

  • Pingxian, Wu;Dejuan, Chen;Kai, Wang;Shujie, Wang;Yihui, Liu;Anan, Jiang;Weihang, Xiao;Yanzhi, Jiang;Li, Zhu;Xu, Xu;Xiaotian, Qiu;Xuewei, Li;Guoqing, Tang
    • Animal Bioscience
    • /
    • 제36권1호
    • /
    • pp.29-42
    • /
    • 2023
  • Objective: Pigs, an ideal biomedical model for human diseases, suffer from about 50% early embryonic and fetal death, a major cause of fertility loss worldwide. However, identifying the causal variant remains a huge challenge. This study aimed to detect single nucleotide polymorphisms (SNPs) and candidate genes for the number of mummified (NM) piglets using the imputed whole-genome sequence (WGS) and validate the potential candidate genes. Methods: The imputed WGS was introduced from genotyping-by-sequencing (GBS) using a multi-breed reference population. We performed genome-wide association studies (GWAS) for NM piglets at birth from a Landrace pig populatiGWAS peak located on SSC11: 0.10 to 7.11 Mbp (Top SNP, SSC11:1,889,658 bp; p = 9.98E-13) was identified in cyclin dependent kinase on. A total of 300 Landrace pigs were genotyped by GBS. The whole-genome variants were imputed, and 4,252,858 SNPs were obtained. Various molecular experiments were conducted to determine how the genes affected NM in pigs. Results: A strong GWAS peak located on SSC11: 0.10 to 7.11 Mbp (Top SNP, SSC11:1,889,658 bp; p = 9.98E-13) was identified in cyclin dependent kinase 8 (CDK8) gene, which plays a crucial role in embryonic retardation and lethality. Based on the molecular experiments, we found that Y-box binding protein 1 (YBX1) was a crucial transcription factor for CDK8, which mediated the effect of CDK8 in the proliferation of porcine ovarian granulosa cells via transforming growth factor beta/small mother against decapentaplegic signaling pathway, and, as a consequence, affected embryo quality, indicating that this pathway may be contributing to mummified fetal in pigs. Conclusion: A powerful imputation-based association study was performed to identify genes associated with NM in pigs. CDK8 was suggested as a functional gene for the proliferation of porcine ovarian granulosa cells, but further studies are required to determine causative mutations and the effect of loci on NM in pigs.

심층 인공신경망을 활용한 Smoothed RSSI 기반 거리 추정 (Smoothed RSSI-Based Distance Estimation Using Deep Neural Network)

  • 권혁돈;이솔비;권정혁;김의직
    • 사물인터넷융복합논문지
    • /
    • 제9권2호
    • /
    • pp.71-76
    • /
    • 2023
  • 본 논문에서는 단일 수신기가 사용되는 환경에서 정확한 거리 추정을 위해 심층 인공신경망 (Deep Neural Network, DNN)을 활용한 Smoothed Received Signal Strength Indicator (RSSI) 기반 거리 추정 기법을 제안한다. 제안 기법은 거리 추정 정확도 향상을 위해 Data Splitting, 결측치 대치, Smoothing 단계로 구성된 전처리 과정을 수행하여 Smoothed RSSI 값을 도출한다. 도출된 다수의 Smoothed RSSI 값은 Multi-Input Single-Output(MISO) DNN 모델의 Input Data로 사용되며 Input Layer와 Hidden Layer를 통과하여 최종적으로 Output Layer에서 추정 거리로 반환된다. 제안 기법의 우수성을 입증하기 위해 제안 기법과 선형회귀 기반 거리 추정 기법의 성능을 비교하였다. 실험 결과, 제안 기법이 선형회귀 기반 거리 추정 기법 대비 29.09% 더 높은 거리 추정 정확도를 보였다.