구간형 데이터 검정법을 이용한 유전자 탐색에 관한 연구

A Study on Gene Search Using Test for Interval Data

  • 투고 : 2018.11.20
  • 심사 : 2018.12.20
  • 발행 : 2018.12.31

초록

본 연구는 생명정보학(bio-informatics) 분야 중, 특정 병에 관련된 유전자 위치를 찾고자 DNA 시퀀싱(DNA sequencing) 방법을 이용한 메틸화(methylation) 데이터의 분석에 관한 것이다. 반복적인 시퀀싱 과정을 통해 도출되는 메틸화 여부 자료를 비율로 표현한 메틸화 점수는 0과 1사이의 값을 가지게 된다. 이러한 데이터에 집단별 메틸화 점수의 차이를 검토하기 위해 t-검정을 단순히 적용하는 것은 정규분포의 가정에 위배된다. 또한 메틸화 점수 생성과정에서 시퀀싱의 반복수에 따라 결과가 달라 질 수 있으므로 이러한 오차를 고려해서 분석할 수 있는 방법도 필요하다. 이에 본 논문에서는 메틸화 데이터를 하나의 숫자 데이터가 아닌 불확실성을 포함하는 구간형(interval) 데이터로 변환하여 분석하는 심볼릭 데이터 분석(symbolic data analysis) 및 구간형 K-S 검정법을 적용하였다. 또한 구간형 데이터로 변환하는 과정에서 정규분포를 이용하지 않고 베타분포를 이용하여 메틸화 점수의 특성을 반영하여 분석할 수 있게 하였다. 자료분석을 위하여 174명의 실제 암환자 및 정상인들의 DNA 시퀀싱 데이터를 이용하여 제안한 방법의 성질을 살펴보았다. t-검정은 위치모수에 관한 검정만 가능한 반면, 구간형 K-S 통계량은 구간자료에 대해 위치모수뿐만 아니라 분포함수의 이질성에 검정할 수 있으므로 t-검정이 놓칠 수 있는 유의미한 유전자 위치를 찾아낼 수 있음을 확인하였다.

The methylation score, expressed as a percentage of the methylation status data derived from the iterative sequencing process, has a value between 0 and 1. It is contrary to the assumption of normal distribution that simply applying the t-test to examine the difference in population-specific methylation scores in these data. In addition, since the result may vary depending on the number of repetitions of sequencing in the process of methylation score generation, a method that can analyze such errors is also necessary. In this paper, we introduce the symbolic data analysis and the interval K-S test method which convert observation data into interval data including uncertainty rather than one numerical data. In addition, it is possible to analyze the characteristics of methylation score by using Beta distribution without using normal distribution in the process of converting into interval data. For the data analysis, the nature of the proposed method was examined using sequencing data of actual patients and normal persons. While the t-test is only possible for the location test, it is found that the interval type K-S statistic can be used to test not only the location parameter but also the heterogeneity of the distribution function.

키워드

과제정보

연구 과제 주관 기관 : 성신여자대학교

참고문헌

  1. Billard, L., Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining, John Wiley & Sons, New Jersey.
  2. Hedjazi, L., Lann, M., Kempowsky, T., Dalence, F., Agular-Martin, J., Favre, G. (2013). Symbolic data analysis to defy low signal-to-noise ratio in microarray data for breast cancer prognosis, Journal of Computational Biology, 20(8), 610-620. https://doi.org/10.1089/cmb.2012.0249
  3. Hlady, R., Tiedemann, R., Puszyk, W., Zendejas, I., Roberts, L. R., Choi, J., Liu, C., Robertson, K. (2014). Epigenetic signatures of alcohol abuse and hepatitis infection during human hepatocarcinogenesis, Oncotarget, 5(19), 9425-9443.
  4. Hwang, Y., Kang, C., Kim, K., Choi, S. (2013). A study of exploring disease-related genes using social network analysis, Journal of the Korean Data Analysis Society, 15(2), 677-684. (in Korean).
  5. Kang, G., Kim, K., Kang, C. (2014). A study of cancer-related gene exploration using PCA logistic regression, Journal of the Korean Data Analysis Society, 16(3), 1241-1248. (in Korean).
  6. Lee, S. (2016). A study on two sample test for interval-valued symbolic data, Journal of the Korean Data Analysis Society, 18(6), 2871-2878.
  7. Lee, S. (2017a). Decision tree for interval valued symbolic response using K-S statistics, Journal of the Korean Data Analysis Society, 19(4), 1821-1829. (in Korean).
  8. Lee, S. (2017b). Comparison of the two distributions based on interval valued data, Journal of the Korean Data Analysis Society, 18(6), 3023-3031. (in Korean).
  9. Lee, S., Piao, Y., Shi, H., Choi, J. (2015). New approaches to identify cancer heterogeneity in DNA methylation studies using the Lepage test and multinomial logistic regression, 2015 Proceeding of IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB), 1-7.