• Title/Summary/Keyword: 바이오 데이터 분석

Search Result 702, Processing Time 0.027 seconds

Relation Analysis of Disease and Biomarker based on Google Scholar (구글 학술 검색 기반의 질병과 바이오마커 관계 분석)

  • Oh, Byoung-Doo;Kim, Yu-Seop
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.238-241
    • /
    • 2017
  • 본 논문에서는 구글 학술 검색 기반의 데이터를 이용하여 질병과 폐질환과 관련된 바이오마커 단어의 유사도를 계산하는 방법을 제안한다. 질병과 바이오마커의 유사도를 계산할 때, 각 단어의 구글 학술 검색의 검색 결과를 이용하였다. 이를 통해 폐질환 관련 바이오마커와 다른 질병간의 관계를 파악하고자 히며, 의료 전문가에게 폐질환 관련 바이오마커와 다른 질병간의 새로운 관계를 제시하고자 한다. 이러한 데이터를 이용하여 계산한 결과, Wor2Vec의 결과를 이용한 코사인 유사도의 결과와 상관 계수가 약 0.64로 상당히 높은 상관 관계를 확인할 수 있었다. 따라서 이 방법을 통해 질병과 바이오마커의 관계를 파악하고자 하였다. 또한 Word2Vec을 이용한 질병과 바이오마커 단어의 벡터 값과 단어 유사도 계산 방법의 결과를 이용한 Deep Neural Networks (DNNs) 모델을 구축하고자 하며, 이를 통해 자동적으로 유사도를 분석하고자 하였다.

  • PDF

Pattern Mining of Biological Data by Co-evolutionary Learning with Multi-populations (다중 개체 집단의 공진화적 학습에 의한 바이오 데이터의 패턴 마이닝)

  • Kim Soo-Jin;Joung Je-Gun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.46-48
    • /
    • 2006
  • 현재 각 분야에서 다양한 실험 데이터가 산출되면서 이종(heterogeneous) 데이터간의 상관관계 분석에 대한 중요성이 더욱 부각되고 있다. 특히, 대규모 실험에 의해 급속하게 증가하고 있는 대량의 바이오 데이터에서 이런 문제를 해결하기 위한 새로운 데이터 마이닝 방법이 요구된다. 본 논문은 특성이 다른 두 데이터 셋에서 서로 상관관계가 있는 부분 패턴을 파악할 수 있는 새로운 알고리즘을 제안한다. 제안한 알고리즘은 다중 개체 집단을 유지하면서 상호간 공진화하는 확률적 진화컴퓨팅 방법에 기반하고, 전체의 탐색 포인트들을 분해하여 최적해를 찾는 점에서 장점을 가지고 있다. 실험 결과, 본 논문에서는 효모 유전자에 대한 발현 데이터와 모티프 데이터의 이종 데이터에 적용해 보았으며, 이러한 데이터에 있어서 주요 상관관계가 있는 패턴들을 추출한 결과를 제시한다.

  • PDF

A Study on Metadata Interoperability between the National Research Data Platform and the Bio Research Data Platform (국가 연구데이터플랫폼과 바이오 연구데이터플랫폼의 메타데이터 상호운용성에 관한 연구)

  • Park, Seong-Eun;Ko, Young Man
    • Journal of the Korean Society for information Management
    • /
    • v.39 no.2
    • /
    • pp.159-202
    • /
    • 2022
  • The 'National Research Data Platform' and the 'Bio Research Data Platform' were recently built and each is actively creating an ecosystem. It is built independently based on other metadata standards, which may cause future interoperability issues. The purpose of this study is to propose a basis for metadata interoperability between the two platforms. To this end, the metadata standards of each platform were analyzed, crosswork targets were selected and mapped, and the suitability of the mapped elements was verified through experts in the bio field. And more appropriate mapping elements were recommended to derive metadata elements for datasets and files. Through this, it was possible to confirm the possibility that the metadata of each platform could be semantically linked and the basis for securing interoperability.

Analysis of toxicity using bio-digital contents (바이오 디지털 콘텐츠를 이용한 독성의 분석)

  • Kang, Jin-Seok
    • Journal of Digital Contents Society
    • /
    • v.11 no.1
    • /
    • pp.99-104
    • /
    • 2010
  • Numerous bio-digital contents have been produced by new technology using biochip and others for analyzing early chemical-induced genes. These contents have little meaning by themselves, and so they should be modified and extracted after consideration of biological meaning. These include genomics, transcriptomics, protenomics, metabolomics, which combined into omics. Omics tools could be applied into toxicology, forming a new field of toxicogenomics. It is possible that approach of toxicogenomics can estimate toxicity more quickly and accurately by analyzing gene/protein/metabolite profiles. These approaches should help not only to discover highly sensitive and predictive biomarkers but also to understand molecular mechanism(s) of toxicity, based on the development of analysing technology. Furthermore, it is important that bio-digital contents should be obtained from specific cells having biological events more than from whole cells. Taken together, many bio-digital contents should be analyzed by careful calculating algorism under well-designed experimental protocols, network analysis using computational algorism and related profound databases.

A New Approach for Multi-Source Bio-data Integration and Analysis (멀티 소스 바이오 데이터 통합과 분석을 위한 새로운 접근 방법)

  • 윤혜성;이상호;김주한
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.268-270
    • /
    • 2004
  • 네트워크가 보편화되면서 어떠한 정보의 교환도 시간과 장소에 상관없이 가능하게 되었다. 자체 실험실에서 실험한 값을 포함하여 분산된 다양한 소스로부터 많은 실험 값의 정보를 통합하는 즉, 멀티 소스 데이터에 대한 통합 규칙을 만들 수 있다면 다양하고 유용한 정보를 얻을 수 있을 것이다. 또한 통합된 규칙을 통해서 새로운 안목으로 실험을 진행할 수도 있으며, 미처 생각하지 못했던 관련 지식을 습득할 수도 있을 것이다. 본 논문에서는 이러한 분산된 데이터를 통합하여 멀티 소스 데이터들 간의 통합 규칙을 만들고 이의 분석 기반이 되도록 하는 방법에 대해 소개한다.

  • PDF

Implementing System for Dynamic Constructing and Clustering on KEGG Pathway Network (KEGG 패스웨이 네트워크 동적 구축 및 클러스터링 시스템 개발)

  • Seo, Dongmin;Lee, Min-Ho;Yu, Seok Jong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.231-232
    • /
    • 2015
  • 최근 유전체학, NGS(Next Generation Sequencing) 기술, IT/NT 장비의 발전 등에 따라 방대한 양의 바이오-메디컬 데이터가 생산되고, 이에 따라 빅데이터를 활용한 헬스케어 산업이 급속히 발달하고 있으며, 이와 관련된 빅데이터 기술은 국민의 건강 증대와 건강한 고령 삶을 제공하는 핵심 기술로 급부상하고 있다. 패스웨이는 단백질, 유전자, 세포 등의 생체적 요소 간의 역학관계 혹은 상호작용 등을 네트워크 형식으로 표현한 생물학적 심층지식으로, 바이오-메디컬 빅데이터 분석에 있어서 널리 활용되고 있다. 하지만 패스웨이는 매우 다양한 형태를 갖고 용량이 매우 큰 빅데이터로 이를 분석하는데 많은 시간이 소요된다. 그래서 본 논문에서는 세계적으로 가장 우수하고 방대한 양의 패스웨이를 제공하는 KEGG 패스웨이 데이터베이스로부터 사용자가 관심 갖는 패스웨이만을 자동 수집하고 패스웨이 간 계층구조를 기반으로 네트워크를 구성 후, 해당 패스웨이 네트워크에 대한 클러스터링과 핵심 패스웨이 선정을 통해 패스웨이 간의 역학관계 또는 상호작용을 직관적으로 분석할 수 시스템을 제안했다.

  • PDF

Data analysis for quantitative proteomics research (프로테오믹스 연구를 위한 정량분석 데이터의 해석)

  • Kwon Kyung-Hoon
    • KOGO NEWS
    • /
    • v.6 no.1
    • /
    • pp.24-28
    • /
    • 2006
  • 프로테오믹스는 생물체 안에 포함되어 있는 단백질을 통합적으로 연구한다. 단백질을 동정(Protein identification)하고, 단백질의 상태를 분석(Protein characterization)하며, 단백질의 양적 변화를 관찰(Protein quantitation)한다. 단백질에 대한 분석, 특히 질량분석기에 의해 초고속으로 대량의 단백질 데이터를 생산하는 프테테오믹스의 연구는 정량적인 단백질 발현양상분석의 정확도를 높이고 분석시간을 단축하기 위해 다양한 실험기법과 데이터 분석기법을 동원하고 있다. 1) 단백질의 양적 차이나 양적 변화의 관찰은 바이오마커를 발굴하고 생명현상의 메카니즘을 규명하여 그 결과를 신약개발에 활용하기 위한 기초 연구이다. 이 글에서는 프로테오믹스 연구의 초창기부터 사용되어온 2차원 전기영동법에 의해 생성되는 2D-gel image에서의 스팟(spot)분석법과 함께, 탄뎀 질량분석기를 사용하는 ICAT, SILAC 등의 동위 원소를 사용한 라벨링(labeling) 방법, 라벨링을 하지 않는 label-free 방법 등 프로테오믹스에서의 정량분석법에 대한 기본 개념을 살펴보고, 이들에서의 데이터 분석 기술의 적용에 대해 간략히 소개하였다.

  • PDF

Comparative Study of NIR-based Prediction Methods for Biomass Weight Loss Profiles

  • Cho, Hyun-Woo;Liu, J. Jay
    • Clean Technology
    • /
    • v.18 no.1
    • /
    • pp.31-37
    • /
    • 2012
  • Biomass has become a major feedstock for bioenergy and other bio-based products because of its renewability and environmental benefits. Various researches have been done in the prediction of crucial characteristics of biomass, including the active utilization of spectroscopy data. Near infrared (NIR) spectroscopy has been widely used because of its attractive features: it's non-destructive and cost-effective producing fast and reliable analysis results. This work developed the multivariate statistical scheme for predicting weight loss profiles based on the utilization of NIR spectra data measured for six lignocellulosic biomass types. Wavelet analysis was used as a compression tool to suppress irrelevant noise and to select features or wavelengths that better explain NIR data. The developed scheme was demonstrated using real NIR data sets, in which different prediction models were evaluated in terms of prediction performance. In addition, the benefits of using right pretreatment of NIR spectra were also given. In our case, it turned out that compression of high-dimensional NIR spectra by wavelet and then PLS modeling yielded more reliable prediction results without handling full set of noisy data. This work showed that the developed scheme can be easily applied for rapid analysis of biomass.

A Study on the Mediating Effect of Motivation Factors between the Quality of Research Data Metadata and the Activation of Research Data Platform (연구데이터 메타데이터의 품질과 연구데이터플랫폼의 활성화의 관계에서 동기부여 요인의 매개효과 연구)

  • Seong-Eun Park
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.57 no.3
    • /
    • pp.325-350
    • /
    • 2023
  • This study focuses on the impact of research data metadata quality evaluation index on the revitalization of K-BDS, a research data platform in the bio field, and examines the mediating effect of motivation factors for utilizing the platform. The investigation employs a structural equation model analysis and bootstrap analysis to explore the interrelationships among the three variables. The findings demonstrate that researchers who prioritize the quality of metadata display higher motivation to use the research data platform, leading to an intention to activate the platform. The study also confirms the mediating effect of motivation factors. Moreover, a comprehensive understanding of the sub-factors within each variable is attained through regression analysis and Sobel test. The results highlight that enhancing searchability is crucial to activate research data sharing in the bio field, while improving discoverability is vital for research data reuse. Interestingly, the study reveals that citationability does not significantly impact platform activation. As a conclusion, to foster platform activation, it is imperative to provide systematic support by enhancing metadata quality. This improvement can not only increase trust in the platform but also institutionally solidify the benefits of citation.

Biomarker Detection on Aptamer-based Biochip Data by Potential SVM (Potential SVM을 이용한 압타머칩에서의 바이오마커 탐색)

  • Kim, Byoung-Hee;Kim, Sung-Chun;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.22-27
    • /
    • 2006
  • 압타머칩은 혈청(serum) 내의 지정된 단백질의 상대적 양을 직접 측정할 수 있는 바이오칩으로서, 의학적 질병 진단에 유용하게 사용할 수 있는 툴이다. 압타머칩 데이터 분석에는 기존의 마이크로어레이 분석기법을 그대로 적용할 수 있다. 본 논문에서는 Potential SVM(PSVM)을 이용하여, 심혈관질환 샘플 기반의 압타머칩 데이터에서 바이오마커 후보 단백질을 선정한 결과를 정리한다. PSVM은 분류 알고리즘으로서 뿐만 아니라 자질 선택(feature selection)에서도 우수한 성능을 보이는 알고리즘으로 알려져 있다. 심혈관 질환의 단계에 따라 구분한 4개 클래스, 135개 샘플로 구성된 3K 압타머칩 데이터에 대해 PSVM을 적용하여 자질을 선택하고 분류성능을 측정한 결과, 마이크로어레이에서의 자질 선택에 많이 사용되는 Gain Ratio 기법과 비교하여 보다 적은 수의 단백질 정보로 보다 나은 분류 성능을 보임을 확인하였다. 더불어, PSVM을 이용해 선택한 단백질군을 심혈관 질환 진단을 위한 바이오마커 후보로 제시한다.

  • PDF