DOI QR코드

DOI QR Code

A Concordance Study of the Preprocessing Orders in Microarray Data

마이크로어레이 자료의 사전 처리 순서에 따른 검색의 일치도 분석

  • Kim, Sang-Cheol (Department of Applied Statistics, Yonsei University) ;
  • Lee, Jae-Hwi (Department of Applied Statistics, Yonsei University) ;
  • Kim, Byung-Soo (Department of Applied Statistics, Yonsei University)
  • 김상철 (연세대학교 응용통계학과) ;
  • 이재휘 (연세대학교 응용통계학과) ;
  • 김병수 (연세대학교 응용통계학과)
  • Published : 2009.06.30

Abstract

Researchers of microarray experiment transpose processed images of raw data to possible data of statistical analysis: it is preprocessing. Preprocessing of microarray has image filtering, imputation and normalization. There have been studied about several different methods of normalization and imputation, but there was not further study on the order of the procedures. We have no further study about which things put first on our procedure between normalization and imputation. This study is about the identification of differentially expressed genes(DEG) on the order of the preprocessing steps using two-dye cDNA microarray in colon cancer and gastric cancer. That is, we check for compare which combination of imputation and normalization steps can detect the DEG. We used imputation methods(K-nearly neighbor, Baysian principle comparison analysis) and normalization methods(global, within-print tip group, variance stabilization). Therefore, preprocessing steps have 12 methods. We identified concordance measure of DEG using the datasets to which the 12 different preprocessing orders were applied. When we applied preprocessing using variance stabilization of normalization method, there was a little variance in a sensitive way for detecting DEG.

마이크로어레이 실험의 실험자들은 원 측정치인 영상을 조사하여 통계적 분석이 가능한 자료의 형태로 변환하는데 이러한 과정을 흔히 사전 처리라고 부른다. 마이크로어레이의 사전 처리는 불량 영상의 제거(filtering), 결측치의 대치와 표준화로 세분되어질 수 있다. 표준화 방법과 결측치 대치 방법 각각에 대하여서는 많은 연구가 보고되었으나, 사전 처리를 구성하는 원소들간의 적정한 순서에 대하여서는 연구가 미흡하다. 표준화 방법과 결측치 대치 방법 중 어느 것이 먼저 실시되어야 하는지에 대하여서 아직 알려진 바가 없다. 본 연구는 사전 처리 순서에 대한 탐색적 시도로서 대장암과 위암을 대상으로 실시한 두 조의 cDNA 마이크로어레이 실험 자료를 이용하여 사전 처리를 구성하는 원소들간의 다양한 순서에 따라 검색된 특이 발현 유전자 군이 어떻게 변화하는지를 분석하고 있다. 즉, 결측치대치와 표준화의 여러가지 방법들의 조합에 따라 검색된 특이 발현 유전자 군이 얼마나 일치적인가를 확인하고자 한다. 결측치 대치 방법으로는 K 최근접 이웃 방법과 베이지안 주성분 분석을 고려하였고, 표준화 방법으로는 전체 표준화, 블럭별 국소(within-print tip group) 평활 표준화 그리고 분산 안정화를 유도하는 표준화 방법을 적용하였다. 따라서 사전 처리를 구성하는 두개 원소가 각각 2개 수준과 3개 수준을 가지고 있고, 두개 원소의 순열에 따른 모든 가능한 사전 처리 개수 수는 12개가 된다. 본 연구에서는 12개 사전 처리 방법 각각에 따라 정상 조직과 암 조직간 특이적으로 발현하는 유전자 군을 검색하였고, 사전 처리 순서를 바꾸었을때 유전자 군이 얼마나 일치적으로 유지되는지를 파악하고 있다. 표준화 방법으로 분산 안정화 표준화를 사용할 경우는 사전 처리 순서에 따라 특이 발현 유전자 군이 다소 민감하게 변하는 것을 보이고 있다.

Keywords

References

  1. Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing, Journal oj the Royal Statistical Society Series B, 57, 289-300
  2. Bolstad, B. M., Irizarry, R. A, Astrand, M. and Speed, T. P. (2003). A comparison of normalization methods for high density oligonucleotide array data based on variance and bias, Bioinformatics, 19, 185-193 https://doi.org/10.1093/bioinformatics/19.2.185
  3. Bo, T. H., Dysvik, B. and Jonassen, I. (2004). LSimpute: Accurate estimation of missing value in microarray data with least squares methods, Nucleic Acide Research, 32, e34 https://doi.org/10.1093/nar/gnh026
  4. Ge, Y., Dudoit, S. and Speed, T. P. (2003). Resampling-based multiple testing for microarray data analysis, Test, 12, 1-77 https://doi.org/10.1007/BF02595811
  5. Huber, W., von Heydebreck, A., Siiltmann, H., Poustka, A. and Vingron, M. (2002). Variance stabilization applied to microarray data calibration and to the quantification of differential expression, Bioinformatics, 18, S96-S104 https://doi.org/10.1093/bioinformatics/18.suppl_1.S96
  6. Kim, B. S., Benner, A. and Kim, S. C. (2006). Development of a molecular prognostic indicator of gastric cancer using the penalized Cox regression, <한국통계학회 2006년 춘계학술발표회 논문집>, 41
  7. Kim, B. S., Kim, I., Lee, S., Kim, S., Rha, S. Y. and Chung, H. C. (2005). Statistical methods of translating microarray data into clinically relevant diagnostic information in colorectal cancer, Bioinformatics, 21, 517-528 https://doi.org/10.1093/bioinformatics/bti029
  8. Kim, H., Golub, G. H. and Park, H. (2005). Missing value estimation for DNA microarray gene expression data: Local least squares imputation, Bioinformatics, 21, 187-198 https://doi.org/10.1093/bioinformatics/bth499
  9. Oba, S., Sato, M. A., Takemasa, I., Monden, M., Matsubara, K. I. and Ishii, S. (2003). A Bayesian missing value estimation method for gene expression profile data, Bioinformatics, 19, 2088-2096 https://doi.org/10.1093/bioinformatics/btg287
  10. Ouyang, M., Welsh, W. J. and Georgopoulos, P. (2004). Gaussian mixture clustering and imputation of microarray data, Bioinformatics, 20, 917-923 https://doi.org/10.1093/bioinformatics/bth007
  11. Sehgal, M. S., Gondal, I. and Dooley, L. S. (2005). Collateral missing value imputation: A new robust missing value estimation algorithm for microarray data, Bioinformatics, 21, 2417-2423 https://doi.org/10.1093/bioinformatics/bti345
  12. Smyth, G. K. and Speed, T. (2003). Normalization of cDNA microarray data, Methods, 31, 265-273 https://doi.org/10.1016/S1046-2023(03)00155-5
  13. Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R. B. (2001). Missing value estimation methods for DNA microarrays, Bioinformatics, 17, 520-525 https://doi.org/10.1093/bioinformatics/17.6.520
  14. Westfall, P. H. and Young, S. S. (1993). Resampling-Based Multiple Testing: Examples and Methods for p-value Adjustment, John Wiley & Sons, New York, 116-117
  15. Wit, E. and McClure, J. (2004). Statistics for Microarrays: Design, Analysis and Inference, Wiley, New York, 71
  16. Workman, C., Jensen, L. J., Jarmer, H., Berka, R., Gautier, L., Nielser, H. B., Saxild, H. H., Nielsen, C., Brunak, S. and Knudsen, S. (2002). A new non-linear normalization method for reducing variability in DNA microarray experiments, Genome Biology, 3, research0048
  17. Yang, Y. H., Dudoit, S., Luu, P., Lin, D. M., Peng, V., Ngai, J. and Speed, T. P. (2002). Normalization for cDNA microarray data: A robust composite method addressing single and multiple slide systematic variation, Nucleic Acids Research, 30, e15 https://doi.org/10.1093/nar/30.4.e15