• 제목/요약/키워드: false discovery rate (FDR)

검색결과 17건 처리시간 0.027초

Estimation of Gini-Simpson index for SNP data

  • Kang, Joonsung
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1557-1564
    • /
    • 2017
  • We take genomic sequences of high-dimensional low sample size (HDLSS) without ordering of response categories into account. When constructing an appropriate test statistics in this model, the classical multivariate analysis of variance (MANOVA) approach might not be useful owing to very large number of parameters and very small sample size. For these reasons, we present a pseudo marginal model based upon the Gini-Simpson index estimated via Bayesian approach. In view of small sample size, we consider the permutation distribution by every possible n! (equally likely) permutation of the joined sample observations across G groups of (sizes $n_1,{\ldots}n_G$). We simulate data and apply false discovery rate (FDR) and positive false discovery rate (pFDR) with associated proposed test statistics to the data. And we also analyze real SARS data and compute FDR and pFDR. FDR and pFDR procedure along with the associated test statistics for each gene control the FDR and pFDR respectively at any level ${\alpha}$ for the set of p-values by using the exact conditional permutation theory.

SMUCE와 FDR segmentation 방법에 의한 다중변화점 추정법 비교 (Comparison of multiscale multiple change-points estimators)

  • 김재희
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.561-572
    • /
    • 2019
  • 본 연구는 다층적 다중변화점 추정법으로 FDRSeg 기법과 SMUCE 기법의 이론적 특성을 파악하고 모의실험을 통해 경험적 특성을 비교하고자한다. FDRSeg (False discovery rate segmentation)기법은 FDR 기반 조절을 하여 변화점을 추정하고 SMUCE (simultaneous multiscale change-point estimator) 기법은 국소우도함수 기반 다중 검정으로 변화점을 추정한다. 변화점의 개수가 작을경우에는 두 기법에 의한 추정능력이 비슷하다. 변화점 개수가 많을수록 FDRSeg 의 추정이 변화점 개수와 추정측도 면에서 더 좋은 편이다. 실제 데이터 분석으로 검층 주상도 데이터에 대해 각 기법으로 다중변화점 추정을 하고 비교한다.

Robust inference with order constraint in microarray study

  • Kang, Joonsung
    • Communications for Statistical Applications and Methods
    • /
    • 제25권5호
    • /
    • pp.559-568
    • /
    • 2018
  • Gene classification can involve complex order-restricted inference. Examining gene expression pattern across groups with order-restriction makes standard statistical inference ineffective and thus, requires different methods. For this problem, Roy's union-intersection principle has some merit. The M-estimator adjusting for outlier arrays in a microarray study produces a robust test statistic with distribution-insensitive clustering of genes. The M-estimator in conjunction with a union-intersection principle provides a nonstandard robust procedure. By exact permutation distribution theory, a conditionally distribution-free test based on the proposed test statistic generates corresponding p-values in a small sample size setup. We apply a false discovery rate (FDR) as a multiple testing procedure to p-values in simulated data and real microarray data. FDR procedure for proposed test statistics controls the FDR at all levels of ${\alpha}$ and ${\pi}_0$ (the proportion of true null); however, the FDR procedure for test statistics based upon normal theory (ANOVA) fails to control FDR.

유전자 발현 데이터에 대한 다중검정법 비교 및 분석 (Comparison and analysis of multiple testing methods for microarray gene expression data)

  • 서수민;김태훈;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.971-986
    • /
    • 2014
  • 동시에 여러 개의 가설검정 수행시 귀무가설이 참일 경우 귀무가설을 기각할 확률이 커지는 문제가 발생한다. 이러한 다중검정 문제 해결을 위해 여러 연구에서는 가설검정시 필요한 집단별 오류율(FWER; family-wise error rate), 위발견율 (FDR; false discovery rate) 또는 위비발견율 (FNR; false nondiscovery rate) 과 통계량을 고려하여 검정력을 높이고자 하였다. 본 연구에서는 T 통계량, 수정된 T 통계량, 그리고 LPE (local pooled error) 통계량 기반 P값을 이용한 Bonferroni (1960) 방법, Holm (1979) 방법, Benjamini와 Hochberg (1995) 방법과 Benjamini와 Yekutieli (2001) 방법 그리고 Z 통계량 기반 Sun과 Cai (2007) 방법을 고찰하고 모의실험을 통해 다중검정 능력을 비교하였다. 또한 실제 데이터로 애기장대 유전자 발현 데이터에 대해 여러 가지 다중검정법을 통해 유의한 유전자들을 선별하였다.

Multiple Testing in Genomic Sequences Using Hamming Distance

  • Kang, Moonsu
    • Communications for Statistical Applications and Methods
    • /
    • 제19권6호
    • /
    • pp.899-904
    • /
    • 2012
  • High-dimensional categorical data models with small sample sizes have not been used extensively in genomic sequences that involve count (or discrete) or purely qualitative responses. A basic task is to identify differentially expressed genes (or positions) among a number of genes. It requires an appropriate test statistics and a corresponding multiple testing procedure so that a multivariate analysis of variance should not be feasible. A family wise error rate(FWER) is not appropriate to test thousands of genes simultaneously in a multiple testing procedure. False discovery rate(FDR) is better than FWER in multiple testing problems. The data from the 2002-2003 SARS epidemic shows that a conventional FDR procedure and a proposed test statistic based on a pseudo-marginal approach with Hamming distance performs better.

KNOCKOFF를 이용한 성근 VHAR 모형의 FDR 제어 (Controlling the false discovery rate in sparse VHAR models using knockoffs)

  • 박민수;이재원;백창룡
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.685-701
    • /
    • 2022
  • FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.

조기 알츠하이머 치매의 뇌포도당 대사 감소 평가에서 오류발견률 조절법의 적용 (Application of False Discovery Rate Control in the Assessment of Decrease of FDG Uptake in Early Alzheimer Dementia)

  • 이동수;강혜진;장명진;조상수;강원준;이재성;강은주;이강욱;우종인;이명철
    • 대한핵의학회지
    • /
    • 제37권6호
    • /
    • pp.374-381
    • /
    • 2003
  • 목적: 오류발견율 조절법을 PET 영상분석에 이용하면 다중비교에 따르는 위양성율을 줄이면서 동시에 검정력을 높일 수 있다. 조기 알츠하이머 치매 환자에서 오류발견율 조절법을 적용하였을 때와 비보정역치, 무작위 가우스장 보정역치를 적용하였울 때 FDG PET에 나타난 포도당 대사 감소영역이 어떻게 달라지는지 조사하였다. 방법: 28명의 평균 66세 (${\pm}7$)인 조기 알츠하이머성 치매 환자와 연령을 맞춘 18명의 정상인($68{\pm}6$세)의 FDG PET 영상을 SPM99 소프트웨어로 분석하였다. 환자군과 정상군의 차이와 각 환자와 정상군의 차이를 각각 비보정 역치 p값 0.001, 무작위장 보정 역치 p값 0.001, 오류발견율 조절법에 의한 오류발견율 0.001일 때을 정하여 이 세 통계적 역치에서 각각 뇌 포도당 대사감소 영역을 결정하였다. 결과: 집단 분석결과 비보정 역치를 사용하였을 때 가장 넓은 영역에서, 보정역치를 사용하였을 때 가장 좁은 영역에서, 오류발견율 조절법을 적용하였을 때 중간크기의 영역에 대사가 감소하였다. 개인분석결과 비보정 역치 경우 발견된 대사감소 화소보다 오류발견율 조절시 많은 화소가 나타난 경우(8/28, 29%)와 보정 역치 경우와 오류발견율 조절시에는 대사감소 부위가 나타나지 않고 비보정 역치 경우에만 넓은 부위에 대사감소부위가 나타난 경우(6/28, 21%), 그리고 보정역치보다 오류 발견율 조절시에 훨씬 많은 화소가 이상부위로 나타나서 비보정역치 경우에 근접하는 넓이를 찾을 수 있는 경우(14/28 50%)이었다. 결론: 조기 알츠하이머 치매 환자의 FDG PET을 오류발견율 조절법으로 분석한 결과 집단분석이나 개인분석 모두 대사감소부위를 잘 찾을 수 있었다. 집단의 크기가 작은 환자의 집단분석이나 특히 개인분석의 경우 오류발견율 조절법을 이용하여 FDG PET을 분석하는 것이 좋을 것이라 제안한다.

Association between oropharyngeal microbiome and weight gain in piglets during pre and post weaning life

  • Bugenyi, Andrew Wange;Cho, Ho-Seong;Heo, Jaeyoung
    • Journal of Animal Science and Technology
    • /
    • 제62권2호
    • /
    • pp.247-262
    • /
    • 2020
  • Birth weight and subsequent weight gain is of critical importance in the survival and performance of piglets on a commercial swine farm setting. Oropharyngeal microbiome could influence immunity, and feeding behavior thus impacting health and weight gain. We used 16S rRNA gene sequencing to profile the composition and predicted metabolic functionality of the oropharyngeal microbiota in 8 piglets (4 with a birthweight ≤ 1.0 kg and 4 with a birthweight ≥ 1.7 kg) at 11, 26, and 63 days of age. We found 9 genera that were significantly associated with average daily gain (ADG) at 11 days (false discovery rate, FDR < 0.05) and 26 days of age (FDR < 0.1), respectively. The microbial functional profile revealed several pathways associated with ADG (FDR < 0.05). Among these, pathways related to degradation of catechols showed a positive association with ADG at 11, 26, and 63 days of age, implying a potential to breakdown the host-derived catecholamines. We also noted that pathways related to the biodegradation of nucleosides and nucleotides increased with ADG during the pre-weaning phase, while those involved in their biosynthesis decreased. Our findings provide insights into the oropharyngeal microbial memberships and metabolic pathways that are involved in a piglet's weight gain. Thus, providing a basis for the development of strategies aimed at improving weight gain in pigs.

Comparison of methods for the proportion of true null hypotheses in microarray studies

  • Kang, Joonsung
    • Communications for Statistical Applications and Methods
    • /
    • 제27권1호
    • /
    • pp.141-148
    • /
    • 2020
  • We consider estimating the proportion of true null hypotheses in multiple testing problems. A traditional multiple testing rate, family-wise error rate is too conservative and old to control type I error in multiple testing setups; however, false discovery rate (FDR) has received significant attention in many research areas such as GWAS data, FMRI data, and signal processing. Identify differentially expressed genes in microarray studies involves estimating the proportion of true null hypotheses in FDR procedures. However, we need to account for unknown dependence structures among genes in microarray data in order to estimate the proportion of true null hypothesis since the genuine dependence structure of microarray data is unknown. We compare various procedures in simulation data and real microarray data. We consider a hidden Markov model for simulated data with dependency. Cai procedure (2007) and a sliding linear model procedure (2011) have a relatively smaller bias and standard errors, being more proper for estimating the proportion of true null hypotheses in simulated data under various setups. Real data analysis shows that 5 estimation procedures among 9 procedures have almost similar values of the estimated proportion of true null hypotheses in microarray data.

확률그래프모델을 이용한 MS/MS 기반 단백질 동정 기법 (A Method for Protein Identification Based on MS/MS using Probabilistic Graphical Models)

  • 이홍란;황규백
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.426-428
    • /
    • 2012
  • In order to identify proteins that are present in biological samples, these samples are separated and analyzed under the sequential procedure as follows: protein purification and digestion, peptide fragmentation by tandem mass spectrometry (MS/MS) which breaks peptides into fragments, peptide identification, and protein identification. One of the widely used methods for protein identification is based on probabilistic approaches such as ProteinProphet and BaysPro. However, they do not consider the difference in peptide identification probabilities according to their length. Here, we propose a probabilistic graphical model-based approach to protein identification from MS/MS data considering peptide identification probabilities, number of sibling peptides, and peptide length. We compared our approach with ProteinProphet using a yeast MS/MS dataset. As a result, our model identified 27 more proteins than ProteinProphet at 1% of FDR (false discovery rate), confirming the importance of peptide length information in protein identification.