• Title/Summary/Keyword: Gene Algorithm

Search Result 231, Processing Time 0.029 seconds

A MA-plot-based Feature Selection by MRMR in SVM-RFE in RNA-Sequencing Data

  • Kim, Chayoung
    • 한국정보기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.25-30
    • /
    • 2018
  • 유전자 규정 네트워크 (GRN)에 RNA-시퀀싱 데이터를 활용할 때, 해당 유전자와 환경과의 상호 작용에 의해서 생기는 형질들 중에서 연관성이 높은 유전자로 GRN을 구성하는 것은 상당히 어려운 일이다. 본 연구에서는 Big-Data의 RNA-시퀀싱 자료들로, 지지 벡터 머신 회귀 특징 추출(SVM-RFE) 에 근거하여, 연관성이 높은 유전자(maximum-relevancy)는 추출하고, 연관성이 낮은 유전자(minimum-redundancy)는 제거하는 MRMR 필터 방법을 집중도 의존 정규화(intensity-dependent normalization, DEGSEQ)에 기반 하여 데이터의 정밀성을 높여, 소수 연관성 높은 유전자만 판별해 내는 방법을 사용한다. 제안한 방법은 R 언어 패키지를 사용하여 편리함과 동시에, 다른 기존의 방법을 비교하였을 때, Big-Data의 시간 활용도를 높이면서, 동시에 높은 연관성 있는 유전자만을 잘 추출해 냄을 확인하였다.

Raw Animal Meats as Potential Sources of Clostridium difficile in Al-Jouf, Saudi Arabia

  • Taha, Ahmed E.
    • 한국축산식품학회지
    • /
    • 제41권5호
    • /
    • pp.883-893
    • /
    • 2021
  • Clostridium difficile present in feces of food animals may contaminate their meats and act as a potential source of C. difficile infection (CDI) to humans. C. difficile resistance to antibiotics, its production of toxins and spores play major roles in the pathogenesis of CDI. This is the first study to evaluate C. difficile prevalence in retail raw animal meats, its antibiotics susceptibilities and toxigenic activities in Al-Jouf, Saudi Arabia. Totally, 240 meat samples were tested. C. difficile was identified by standard microbiological and biochemical methods. Vitek-2 compact system confirmed C. difficile isolates were 15/240 (6.3%). Toxins A/B were not detected by Xpect C. difficile toxin A/B tests. Although all isolates were susceptible to vancomycin and metronidazole, variable degrees of reduced susceptibilities to moxifloxacin, clindamycin or tetracycline antibiotics were detected by Epsilon tests. C. difficile strains with reduced susceptibility to antibiotics should be investigated. Variability between the worldwide reported C. difficile contamination levels could be due to absence of a gold standard procedure for its isolation. Establishment of a unified testing algorithm for C. difficile detection in food products is definitely essential to evaluate the inter-regional variation in its prevalence on national and international levels. Proper use of antimicrobials during animal husbandry is crucial to control the selective drug pressure on C. difficile strains associated with food animals. Investigating the protective or pathogenic potential of non-toxigenic C. difficile strains and the possibility of gene transfer from certain toxigenic/ antibiotics-resistant to non-toxigenic/antibiotics-sensitive strains, respectively, should be worthy of attention.

Development of a new explicit soft computing model to predict the blast-induced ground vibration

  • Alzabeebee, Saif;Jamei, Mehdi;Hasanipanah, Mahdi;Amnieh, Hassan Bakhshandeh;Karbasi, Masoud;Keawsawasvong, Suraparb
    • Geomechanics and Engineering
    • /
    • 제30권6호
    • /
    • pp.551-564
    • /
    • 2022
  • Fragmenting the rock mass is considered as the most important work in open-pit mines. Ground vibration is the most hazardous issue of blasting which can cause critical damage to the surrounding structures. This paper focuses on developing an explicit model to predict the ground vibration through an multi objective evolutionary polynomial regression (MOGA-EPR). To this end, a database including 79 sets of data related to a quarry site in Malaysia were used. In addition, a gene expression programming (GEP) model and several empirical equations were employed to predict ground vibration, and their performances were then compared with the MOGA-EPR model using the mean absolute error (MAE), root mean square error (RMSE), mean (𝜇), standard deviation of the mean (𝜎), coefficient of determination (R2) and a20-index. Comparing the results, it was found that the MOGA-EPR model predicted the ground vibration more precisely than the GEP model and the empirical equations, where the MOGA-EPR scored lower MAE and RMSE, 𝜇 and 𝜎 closer to the optimum value, and higher R2 and a20-index. Accordingly, the proposed MOGA-EPR model can be introduced as a useful method to predict ground vibration and has the capacity to be generalized to predict other blasting effects.

Efficient Mining of Frequent Subgraph with Connectivity Constraint

  • Moon, Hyun-S.;Lee, Kwang-H.;Lee, Do-Heon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.267-271
    • /
    • 2005
  • The goal of data mining is to extract new and useful knowledge from large scale datasets. As the amount of available data grows explosively, it became vitally important to develop faster data mining algorithms for various types of data. Recently, an interest in developing data mining algorithms that operate on graphs has been increased. Especially, mining frequent patterns from structured data such as graphs has been concerned by many research groups. A graph is a highly adaptable representation scheme that used in many domains including chemistry, bioinformatics and physics. For example, the chemical structure of a given substance can be modelled by an undirected labelled graph in which each node corresponds to an atom and each edge corresponds to a chemical bond between atoms. Internet can also be modelled as a directed graph in which each node corresponds to an web site and each edge corresponds to a hypertext link between web sites. Notably in bioinformatics area, various kinds of newly discovered data such as gene regulation networks or protein interaction networks could be modelled as graphs. There have been a number of attempts to find useful knowledge from these graph structured data. One of the most powerful analysis tool for graph structured data is frequent subgraph analysis. Recurring patterns in graph data can provide incomparable insights into that graph data. However, to find recurring subgraphs is extremely expensive in computational side. At the core of the problem, there are two computationally challenging problems. 1) Subgraph isomorphism and 2) Enumeration of subgraphs. Problems related to the former are subgraph isomorphism problem (Is graph A contains graph B?) and graph isomorphism problem(Are two graphs A and B the same or not?). Even these simplified versions of the subgraph mining problem are known to be NP-complete or Polymorphism-complete and no polynomial time algorithm has been existed so far. The later is also a difficult problem. We should generate all of 2$^n$ subgraphs if there is no constraint where n is the number of vertices of the input graph. In order to find frequent subgraphs from larger graph database, it is essential to give appropriate constraint to the subgraphs to find. Most of the current approaches are focus on the frequencies of a subgraph: the higher the frequency of a graph is, the more attentions should be given to that graph. Recently, several algorithms which use level by level approaches to find frequent subgraphs have been developed. Some of the recently emerging applications suggest that other constraints such as connectivity also could be useful in mining subgraphs : more strongly connected parts of a graph are more informative. If we restrict the set of subgraphs to mine to more strongly connected parts, its computational complexity could be decreased significantly. In this paper, we present an efficient algorithm to mine frequent subgraphs that are more strongly connected. Experimental study shows that the algorithm is scaling to larger graphs which have more than ten thousand vertices.

  • PDF

원핵생물 711종의 보존적 유전자 탐색 (Investigation of Conservative Genes in 711 Prokaryotes)

  • 이동근;이상현
    • 생명과학회지
    • /
    • 제25권9호
    • /
    • pp.1007-1013
    • /
    • 2015
  • 원핵생물체의 생명유지에 중요한 역할을 담당하는 유전자들을 밝히기 위해 미생물 유전체들 사이의 공통적 유전자를 파악하는 COG 알고리즘을 이용하였다. 원핵생물 711종 모두에 보존적인 것은 COG0080 (Ribosomal protein L11) 1개였다. 708종 이상의 원핵생물에 보존적인 22개의 ortholog 중 전사관련 2개, tRNA synthetase 관련4개, ribosamal large subunit 8개, ribosomal small subunit 7개였다. 700종 이상의 원핵생물에 보존적인 COG는 58개였다. 이중 리보좀을 구성하는 소단위체 등 번역 관련 COG가 50개(86.2%), 전사관련 COG가 4개(6.9%)로 나타나 생명현상에서의 단백질의 중요성을 알 수 있었다. 58개의 COG 중 보존성은 COG0060 (Isoleucyl tRNA synthetase)이 가장 높았고 COG0143 (Methionyl tRNA synthetase)이 가장 낮았다. 문(phylum)과 강(class) 수준에서 보존적 유전자들의 평균과 분산으로 유전체 분석을 수행한 결과 변이가 큰 고세균은 진정세균과 구분되었으며 편차는 일부 진정세균이 고세균보다 컸다. 보존적 유전자를 탐색하는 본 연구의 기법은 기초과학 연구와 함께 항균제 개발과 항암요법 개발 등에도 유용할 것이다.

hERG 이온채널 저해제에 대한 2D-QSAR 분석 (2D-QSAR analysis for hERG ion channel inhibitors)

  • 전을혜;박지현;정진희;이성광
    • 분석과학
    • /
    • 제24권6호
    • /
    • pp.533-543
    • /
    • 2011
  • hERG (human ether-a-go-go related gene) 이온채널은 심장 재분극의 중요 요소이며 이 채널의 저해제는 부정맥과 돌연사를 유발할 수 있다. 따라서, 신약개발과정에서 후보물질이 hERG 이온채널의 잠재적인 저해제일 경우에는 심장독성 부작용을 유발하므로, 이를 최소화하고자 많은 노력이 집중되고 있다. 본 연구는 HEK(인간 배아 신장)세포에서 얻은 202개 유기화합물의 $IC_{50}$ 데이터를 이용하여 2차원 구조-활성의 정량적 관계(2D-QSAR)방법으로 예측하는 모델을 개발하였다. hERG이온채널 저해제의 기계 학습방법으로는 다중선형회귀(Multiple Linear Regression), 서포트 벡터 머신(Support Vector Machine: SVM)방법과 인공신경망(Artificial Neural Network)방법이며, 교차검증을 적용한 모집단 기반 전진선택(forward selection)방법과 결합하여 각 학습모델에 적합한 최적의 표현자들을 결정하였다. 가장 우수한 방법은 14종의 표현자를 사용한 인공신경망방법($R^2_{CV}$=0.617, RMSECV=0.762, MAECV=0.583)이었고, 다중선형회귀방법을 통해서 hERG이온채널 저해물질의 구조적 특징과 수용체와의 상호작용을 설명할 수 있다. QSAR모델의 검증은 교차검증과 Y-scrambling test방법으로 수행하였다.

효과적인 HLA개체인식을 위한 부분매칭기법 (The partial matching method for effective recognizing HLA entities)

  • 채정민;정영희;이태민;채지은;오흥범;정순영
    • 컴퓨터교육학회논문지
    • /
    • 제14권2호
    • /
    • pp.83-94
    • /
    • 2011
  • 생의학분야에서 문헌에 표기된 개체를 인식하기 위해 길이우선매칭기법을 빈번히 사용한다. 길이우선매칭기법은 사전을 이용한 개체인식기법으로 좋은 사전만 구축되어 있다면 빠르고 정확하게 개체를 찾아낼 수 있다는 장점을 가진다. 그러나 개체가 나열되고 중복된 단어가 생략될 경우에는 길이우선매칭기법을 이용할 경우 성능이 현저히 떨어지게 된다. 우리는 이러한 인식성능문제를 해결하기 위해 부분매칭기법을 제안한다. 제안된 부분매칭기법은 생략이 발생될 수 있다는 것을 가정하여 다수의 후보개체를 만들어 내고 그 후에 최적화 알고리즘을 통해 다수의 개체후보 중에서 가장 타당해 보이는 개체를 선택한다. 우리는 생의학분야의 개체 중에서 나열되는 경우가 빈번한 HLA 유전자, HLA 항원, HLA 대립유전자 개체들을 대상으로 길이우선매칭기법과 제안된 부분매칭기법의 개체인식성능을 분석하였다. 3종의 HLA 개체들을 인식하기 위해서 먼저 확장사전과 태그기반사전을 구축하였으며, 그 후 구축된 사전을 이용해 길이우선매칭과 부분매칭을 수행하였다. 실험결과에 따르면 길이우선매칭기법은 HLA 항원 개체에서 좋은 성능을 보였으며 부분매칭기법은 생략된 표현이 빈번한 HLA 유전자 개체, HLA 대립유전자 개체에서 좋은 성능을 보였다. 부분매칭기법은 HLA 대립유전자 개체를 대상으로 95.59%의 높은 F-score를 얻었다.

  • PDF

제주도 토양에서 분리한 xylanase 생산균주 Streptomyces glaucescens subsp. WJ-1의 동정 및 효소의 생화학적 특성 연구 (Identification and Biochemical Characterization of Xylanase-producing Streptomyces glaucescens subsp. WJ-1 Isolated from Soil in Jeju Island, Korea)

  • 김다솜;정성철;배창환;지원재
    • 한국미생물·생명공학회지
    • /
    • 제45권1호
    • /
    • pp.43-50
    • /
    • 2017
  • 본 연구로부터 WJ-1 균주는 제주도에서 수집된 토양샘플로부터 동정되었는데, 형태분화관찰 및 16S rRNA 유전자 염기서열분석과 DNA-DNA hybridization 분석을 통하여 S. glaucescens의 신아종으로 분류되었다. 균주 WJ-1의 주요 cellular fatty acid와 게놈내 G+C 농도는 각각 $C_{15:0}$ anteiso (42.99%)와 74.73 mol%였다. 이 균은 배양액으로부터 준비된 조효소액의 xylanase 활성은 중성 pH 조건 및 $55^{\circ}C$에서 활성이 가장 높았다. S. glaucescens의 조효소액을 이용하여 xylan으로부터 xylotriose 및 xylotetraose를 포함하는 xylooligosaccharide를 제조할 수 있다. 본 연구는 S. glaucescens의 아종에 관한 최초의 보고이며, 관련 종에서 xylanase 활성에 관한 최초의 보고이다. 본 연구 결과로부터, WJ-1 균주는 lignocellulosic biomass의 이용 및 기능성 xylooligosacchade 생산에 유용하게 활용될 수 있을 것으로 기대된다.

COG 알고리즘을 통한 해양성 Euryarchaeota의 유전적 조성 분석 (Genetic Composition Analysis of Marine-Origin Euryarchaeota by using a COG Algorithm)

  • 이재화;이동근;김철민;이은열
    • 생명과학회지
    • /
    • 제13권3호
    • /
    • pp.298-307
    • /
    • 2003
  • 고세균 (Archaea)의 보존적 유전자를 파악하고 각 분류 단계별로 추가되는 보존적 유전자를 밝히기 위해 그리고 해양성 Euryarchaeota와 육지성 Euryarchaeota의 유전자 조성을 비교하기위해 COG (clusters of orthologous groups of proteins) 알고리즘을 이용하였다. 총 9종의 고세균이 공통적으로 보유하는 보존적 유전자는 340개로 나타났고 8종의 Euryarchaeota는 388개의 유전자가 보존적이었다. Euryarchaeota 각 종이 보유하는 orthologous에 대한 보존적 유전자의 비율은 20.73∼31.54%로 나타났다. 세균과 S.cerevisiae에는 없고 고세균 수준에서만 공통적인 265개 COG의 조성은 유전정보의 보존과 처리에 관여하는 COG가 94개 (35.5%)이고 대사에 관여하는 COG가 82개 (30.9%)로 유전정보와 물질대사와 관여하는 COG의 보존성이 높은 것으로 나타나 고세균이 독특한 생명체계를 이루고 있는 것으로 사료되었다. Euryarchaeota를 Crenarchaeota와 비교하면 핵산대사에서는 상당한 차이를 보이며 유전정보의 저장과 처리에서는 큰 차이가 없는 것으로 판단되었다. 해양성 Euryarchaeota의 보존적 COG는 기능분류별 종류가 육지성 Euryarchaeota와 달랐고 물질대사 관련 COG의 경우 육지성이 해양성보다 다양한 것을 알 수 있었다. 그리고 육지성과 해양성 Euryarchaeota는 탄수화물대사 등을 비롯한 생리적 측면에서 서로 차이가 있을 가능성이 높을 것으로 사료되었다. 본 연구는 해양 극한미생물인 해양성 Euryarchaeota의 기원과 분류단계에 따른 보존적 유전자를 파악하는데 도움을 줄뿐만 아니라 향후 해양미생물 등의 유용유전자 탐색 등에서도 Manco (Arch. Biochem. Biophy. 373, 182 (2000)) 등의 보고와 같이 충분한 연구가치가 있는 것으로 사료되었다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.