• 제목/요약/키워드: RNA sequencing Big-Data

검색결과 9건 처리시간 0.022초

A MA-plot-based Feature Selection by MRMR in SVM-RFE in RNA-Sequencing Data

  • Kim, Chayoung
    • 한국정보기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.25-30
    • /
    • 2018
  • 유전자 규정 네트워크 (GRN)에 RNA-시퀀싱 데이터를 활용할 때, 해당 유전자와 환경과의 상호 작용에 의해서 생기는 형질들 중에서 연관성이 높은 유전자로 GRN을 구성하는 것은 상당히 어려운 일이다. 본 연구에서는 Big-Data의 RNA-시퀀싱 자료들로, 지지 벡터 머신 회귀 특징 추출(SVM-RFE) 에 근거하여, 연관성이 높은 유전자(maximum-relevancy)는 추출하고, 연관성이 낮은 유전자(minimum-redundancy)는 제거하는 MRMR 필터 방법을 집중도 의존 정규화(intensity-dependent normalization, DEGSEQ)에 기반 하여 데이터의 정밀성을 높여, 소수 연관성 높은 유전자만 판별해 내는 방법을 사용한다. 제안한 방법은 R 언어 패키지를 사용하여 편리함과 동시에, 다른 기존의 방법을 비교하였을 때, Big-Data의 시간 활용도를 높이면서, 동시에 높은 연관성 있는 유전자만을 잘 추출해 냄을 확인하였다.

RNAseq 빅데이터에서 유전자 선택을 위한 밀집도-의존 정규화 기반의 서포트-벡터 머신 병합법 (Combining Support Vector Machine Recursive Feature Elimination and Intensity-dependent Normalization for Gene Selection in RNAseq)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제18권5호
    • /
    • pp.47-53
    • /
    • 2017
  • 고처리 시퀀싱과 빅데이터 및 크라우드 컴퓨팅에 혁신이 일어나면서, RNA 시퀀싱도 획기적인 변화가 일어, RNAseq가 기존의 DNA 마이크로어레이를 대체하여, 빅-데이터를 형성하고 있다. 현재, RANseq 이용한 유전자 조절망(GRN) 까지 연구가 활성화 되고 있는데, 그 중 한 분야가 GRN의 기본 요소인 특징 유전자를 빅-데이터에서도 구별하고 기존에 알려진 것 외에 새로운 역할을 찾는 것이다. 그러나, 이러한 연구 방향에 부합하는 빅-데이터를 처리할 수 있는 컴퓨테이션 방법이 아직까지 매우 부족하다. 따라서 본 논문에서는 RNAseq 빅-데이터를 처리할 수 있도록 기존의 SVM-RFE알고리즘을 밀집도-의존 정규화에 병합하여, NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 데이터에 개선된 알고리즘을 적용하고 해당 알고리즘에 의해 나온 결과의 성능을 평가한다.

앙상블 기법을 활용한 RNA-Sequencing 데이터의 폐암 예측 연구 (A Study on Predicting Lung Cancer Using RNA-Sequencing Data with Ensemble Learning)

  • Geon AN;JooYong PARK
    • Journal of Korea Artificial Intelligence Association
    • /
    • 제2권1호
    • /
    • pp.7-14
    • /
    • 2024
  • In this paper, we explore the application of RNA-sequencing data and ensemble machine learning to predict lung cancer and treatment strategies for lung cancer, a leading cause of cancer mortality worldwide. The research utilizes Random Forest, XGBoost, and LightGBM models to analyze gene expression profiles from extensive datasets, aiming to enhance predictive accuracy for lung cancer prognosis. The methodology focuses on preprocessing RNA-seq data to standardize expression levels across samples and applying ensemble algorithms to maximize prediction stability and reduce model overfitting. Key findings indicate that ensemble models, especially XGBoost, substantially outperform traditional predictive models. Significant genetic markers such as ADGRF5 is identified as crucial for predicting lung cancer outcomes. In conclusion, ensemble learning using RNA-seq data proves highly effective in predicting lung cancer, suggesting a potential shift towards more precise and personalized treatment approaches. The results advocate for further integration of molecular and clinical data to refine diagnostic models and improve clinical outcomes, underscoring the critical role of advanced molecular diagnostics in enhancing patient survival rates and quality of life. This study lays the groundwork for future research in the application of RNA-sequencing data and ensemble machine learning techniques in clinical settings.

RNA 시퀀싱 기법으로 생성된 빅데이터 분석 (Big Data Analytics in RNA-sequencing)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.235-243
    • /
    • 2023
  • 차세대 염기서열 분석이 개발되고 널리 사용됨에 따라 RNA-시퀀싱(RNA-sequencing, RNA-seq)이 글로벌 전사체 프로파일링을 검증하기 위한 도구의 첫번째 선택으로 급부상하게 되었다. RNA-seq의 상당한 발전으로 다양한 유형의 RNA-seq가 생물정보학(bioinformatics) 발전과 함께 진화했으나, 다양한 RNA-seq 기법 및 생물정보학에 대한 전반적인 이해 없이는 RNA-seq의 복잡한 데이터를 해석하여 생물학적 의미를 도출하기는 어렵다. 이와 관련하여 본 리뷰에서는 RNA-seq의 두 가지 주요 섹션을 논의하고 있다. 첫째, Standard RNA-seq과 주요하게 자주 사용되는 두 가지 RNA-seq variant method를 비교하였다. 이 비교는 어떤 RNA-seq 방법이 연구 목적에 가장 적절한지에 대한 시사점을 제공한다. 둘째, 가장 널리 사용되는 RNA-seq에서 생성된 데이터 분석; (1) 탐색적 자료 분석 및 (2) enriched pathway 분석에 대해 논의하였다. 데이터 세트의 전반적인 추세를 제공할 수 있는 주 성분 분석, Heatmap 및 Volcano plot과 같이 RNA-seq에 대해 가장 널리 사용되는 탐색적 자료 분석을 소개하였다. Enriched pathway 분석 섹션에서는 3가지 세대의 enriched pathway 분석에 대해 소개하고 각 세대가 어떤 식으로 RNA-seq 데이터 세트로부터 enriched pathway를 도출하는지를 소개하였다.

단일 세포 RNA 시퀀싱 데이터에 대한 컴퓨터 분석의 작업과정 (The Workflow for Computational Analysis of Single-cell RNA-sequencing Data)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제56권1호
    • /
    • pp.10-20
    • /
    • 2024
  • RNA-시퀀싱은 표본에 대한 전사체 전체의 패턴을 제공하는 기법이다. 그러나 RNA-시퀀싱은 표본 내 전체 세포에 대한 평균 유전자 발현만 제공할 수 있으며, 표본 내의 이질성(heterogeneity)에 대한 정보는 제공하지 못한다. 단일 세포 RNA-시퀀싱 기술의 발전을 통해 우리는 표본의 단일 세포 수준에서 이질성과 유전자 발현의 동역학(dynamics)에 대한 이해를 할 수 있게 되었다. 예를 들어, 우리는 단일 세포 RNA-시퀀싱을 통해 복잡한 조직을 구성하는 다양한 세포 유형을 식별할 수 있으며, 특정 세포 유형의 유전자 발현 변화와 같은 정보를 알 수 있다. 단일 세포 RNA-시퀀싱은 처음 도입된 이후 많은 이들의 관심을 끌게 되었으며, 이를 활용하기 위한 대규모 생물정보학(bioinformatics) 도구가 개발되었다. 그러나 단일 세포 RNA-시퀀싱에서 생성된 빅데이터 분석에는 데이터 전처리에 대한 이해와 전처리 이후 다양한 분석 기술에 대한 이해가 필요하다. 본 종설에서는 단일 세포 RNA-시퀀싱 데이터분석과 관련된 작업과정의 개요를 제시한다. 먼저 데이터의 품질 관리, 정규화 및 차원 감소와 같은 데이터의 전 처리 과정에 대해 설명한다. 그 이후, 가장 일반적으로 사용되는 생물정보학 도구를 활용한 데이터의 후속 분석에 대해 설명한다. 본 종설은 이 분야에 관심이 있는 새로운 연구자를 위한 가이드라인을 제공하는 것을 목표로 한다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

Non-invasive evaluation of embryo quality for the selection of transferable embryos in human in vitro fertilization-embryo transfer

  • Jihyun Kim;Jaewang Lee;Jin Hyun Jun
    • Clinical and Experimental Reproductive Medicine
    • /
    • 제49권4호
    • /
    • pp.225-238
    • /
    • 2022
  • The ultimate goal of human assisted reproductive technology is to achieve a healthy pregnancy and birth, ideally from the selection and transfer of a single competent embryo. Recently, techniques for efficiently evaluating the state and quality of preimplantation embryos using time-lapse imaging systems have been applied. Artificial intelligence programs based on deep learning technology and big data analysis of time-lapse monitoring system during in vitro culture of preimplantation embryos have also been rapidly developed. In addition, several molecular markers of the secretome have been successfully analyzed in spent embryo culture media, which could easily be obtained during in vitro embryo culture. It is also possible to analyze small amounts of cell-free nucleic acids, mitochondrial nucleic acids, miRNA, and long non-coding RNA derived from embryos using real-time polymerase chain reaction (PCR) or digital PCR, as well as next-generation sequencing. Various efforts are being made to use non-invasive evaluation of embryo quality (NiEEQ) to select the embryo with the best developmental competence. However, each NiEEQ method has some limitations that should be evaluated case by case. Therefore, an integrated analysis strategy fusing several NiEEQ methods should be urgently developed and confirmed by proper clinical trials.

마이크로바이옴 데이터 일치를 위한 물체들 사이의 정량 및 정성적 분석 (Qualitative and Quantitative Analysis for Microbiome Data Matching between Objects)

  • 유희상;옥연정;이송희;이소립;이영주;이민호;현성희
    • 대한임상검사과학회지
    • /
    • 제52권3호
    • /
    • pp.202-213
    • /
    • 2020
  • 미생물 연구에서 대량의 마이크로바이옴 데이터를 효율적으로 얻는 기술이 발전해왔지만, 마이크로바이옴 빅 데이터를 적절하게 분석하는 도구는 여전히 부족하다. 또한 빈약한 데이터베이스를 사용하여 미생물 군집을 분석하면 잘못된 결과를 초래할 수 있다. 따라서 본 연구는 대량의 미생물 데이터베이스 분석을 위한 적절한 방법을 설계하고자 하였다. 박테리아는 개인의 손끝과 개인 소지품(휴대 전화 및 랩탑 키보드)에서 수집되었다. 박테리아로부터 게놈 DNA를 추출하고 16S rRNA 유전자를 표적으로 하여 차세대 시퀀싱을 실시하였다. 손끝과 개인 소지품 간의 박테리아 매칭 비율의 정확성은 공식과 함께 환경 및 인간관련 데이터베이스를 사용하여 확인하였다. 적절한 분석을 설계하기 위해 다음 세가지 범주를 기준으로: 정성적 분석과 정량적 분석 비교, 성별에 관계없이 모든 참여자뿐만 아니라 동일 성별 참여자 내 비교, 환경(eDB) 및 인간 관련 데이터 베이스(hDB)를 이용하여 샘플간 비교하였다. 결과는 정성적 분석과 동일 성별 참가자 내에서의 비교 및 hDB의 사용이 비교적 정확한 결과를 제공하였다. 우리의 연구는 인간 유래 미생물을 사용하여 대량의 미생물학적 데이터를 포함하는 연구를 수행할 때 정확한 결과를 얻을 수 있는 분석 방법을 제공한다.

Prebiotics enhance the biotransformation and bioavailability of ginsenosides in rats by modulating gut microbiota

  • Zhang, Xiaoyan;Chen, Sha;Duan, Feipeng;Liu, An;Li, Shaojing;Zhong, Wen;Sheng, Wei;Chen, Jun;Xu, Jiang;Xiao, Shuiming
    • Journal of Ginseng Research
    • /
    • 제45권2호
    • /
    • pp.334-343
    • /
    • 2021
  • Background: Gut microbiota mainly function in the biotransformation of primary ginsenosides into bioactive metabolites. Herein, we investigated the effects of three prebiotic fibers by targeting gut microbiota on the metabolism of ginsenoside Rb1 in vivo. Methods: Sprague Dawley rats were administered with ginsenoside Rb1 after a two-week prebiotic intervention of fructooligosaccharide, galactooligosaccharide, and fibersol-2, respectively. Pharmacokinetic analysis of ginsenoside Rb1 and its metabolites was performed, whilst the microbial composition and metabolic function of gut microbiota were examined by 16S rRNA gene amplicon and metagenomic shotgun sequencing. Results: The results showed that peak plasma concentration and area under concentration time curve of ginsenoside Rb1 and its intermediate metabolites, ginsenoside Rd, F2, and compound K (CK), in the prebiotic intervention groups were increased at various degrees compared with those in the control group. Gut microbiota dramatically responded to the prebiotic treatment at both taxonomical and functional levels. The abundance of Prevotella, which possesses potential function to hydrolyze ginsenoside Rb1 into CK, was significantly elevated in the three prebiotic groups (P < 0.05). The gut metagenomic analysis also revealed the functional gene enrichment for terpenoid/polyketide metabolism, glycolysis, gluconeogenesis, propanoate metabolism, etc. Conclusion: These findings imply that prebiotics may selectively promote the proliferation of certain bacterial stains with glycoside hydrolysis capacity, thereby, subsequently improving the biotransformation and bioavailability of primary ginsenosides in vivo.