Abstract
At an early stage of genomic investigations, a small sample of microarrays is used in gene expression experiments to identify small subsets of candidate genes for a further accurate investigation. Unlike the statistical analysis methods for a large sample of microarrays, an appropriate statistical method for identifying small subsets is a randomization test that provides exact P values. These exact P values from a randomization test for a small sample of microarrays are discrete. The possible existence of differentially expressed genes in the sample of a full set of genes can be tested for the null hypothesis of a uniform distribution. Subsets of smaller P values are of prime interest for a further accurate investigation and identifying these outlier cells from a multinomial distribution of P values is possible by M test of Fuchs et al. (1980). Above all, the genome-wide gene expressions in microarrays are correlated, but the majority of statistical analysis methods in the microarray analysis are based on an independence assumption of genes and ignore the possibly correlated expression levels. We investigated with simulation studies the effect that correlated gene expression levels could have on the randomization test results and M test results, and found that the effects are often not ignorable.
유전체 초기단계 연구에서는 비교적 소수의 마이크로어레이 샘플자료로서 실험을 진행하여 심도 깊게 연구해야 할 유전자 부분군(subsets)을 탐색하게 된다. 이러한 과정에서 요구되는 부분군 탐색에 사용되는 분석방법은 다수 샘플자료 분석의 경우와는 매우 다른 방법들이다. 유전자 극소수 샘플자료의 분석에 매우 적절한 방법인 랜덤검정법을 적용하여 정확한 P값(exact P value)의 이산형 분포가 얻어지고, 일양분포 귀무가설의 검정으로 유의 유전자가 존재하는지를 파악할 수 있다. 한 단계 더 나아가 Fuchs와 Kenett (1980)이 제시한 M 검정을 이용하여 이산형 P 값 다항분포에서 이상범주군(outlier cells)을 찾을 수 있으며 이로써 유의 유전자로서의 가능성이 있는 유전자군을 선정한다. 대다수의 마이크로어레이 유전체 연구에서 수 천 또는 수 만개의 유전자가 서로 독립이라고 가정하고 분석하는 것이 문제점이다. 그러나 본 논문에서는 유전자 연관성을 그대로 유지하는 순열에 기초한 랜덤검정법과 M 검정법으로서 유전자 연관성이 분석에 미치는 영향을 모의실험으로 알아보았으며, 그 영향이 결코 미약하지 않음을 확인할 수 있었다.