• 제목/요약/키워드: Microarray data Integration

검색결과 17건 처리시간 0.022초

Standard-based Integration of Heterogeneous Large-scale DNA Microarray Data for Improving Reusability

  • Jung, Yong;Seo, Hwa-Jeong;Park, Yu-Rang;Kim, Ji-Hun;Bien, Sang Jay;Kim, Ju-Han
    • Genomics & Informatics
    • /
    • 제9권1호
    • /
    • pp.19-27
    • /
    • 2011
  • Gene Expression Omnibus (GEO) has kept the largest amount of gene-expression microarray data that have grown exponentially. Microarray data in GEO have been generated in many different formats and often lack standardized annotation and documentation. It is hard to know if preprocessing has been applied to a dataset or not and in what way. Standard-based integration of heterogeneous data formats and metadata is necessary for comprehensive data query, analysis and mining. We attempted to integrate the heterogeneous microarray data in GEO based on Minimum Information About a Microarray Experiment (MIAME) standard. We unified the data fields of GEO Data table and mapped the attributes of GEO metadata into MIAME elements. We also discriminated non-preprocessed raw datasets from others and processed ones by using a two-step classification method. Most of the procedures were developed as semi-automated algorithms with some degree of text mining techniques. We localized 2,967 Platforms, 4,867 Series and 103,590 Samples with covering 279 organisms, integrated them into a standard-based relational schema and developed a comprehensive query interface to extract. Our tool, GEOQuest is available at http://www.snubi.org/software/GEOQuest/.

The Application of Machine Learning Algorithm In The Analysis of Tissue Microarray; for the Prediction of Clinical Status

  • Cho, Sung-Bum;Kim, Woo-Ho;Kim, Ju-Han
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.366-370
    • /
    • 2005
  • Tissue microarry is one of the high throughput technologies in the post-genomic era. Using tissue microarray, the researchers are able to investigate large amount of gene expressions at the level of DNA, RNA, and protein The important aspect of tissue microarry is its ability to assess a lot of biomarkers which have been used in clinical practice. To manipulate the categorical data of tissue microarray, we applied Bayesian network classifier algorithm. We identified that Bayesian network classifier algorithm could analyze tissue microarray data and integrating prior knowledge about gastric cancer could achieve better performance result. The results showed that relevant integration of prior knowledge promote the prediction accuracy of survival status of the immunohistochemical tissue microarray data of 18 tumor suppressor genes. In conclusion, the application of Bayesian network classifier seemed appropriate for the analysis of the tissue microarray data with clinical information.

  • PDF

Cancer Genomics Object Model: An Object Model for Cancer Research Using Microarray

  • Park, Yu-Rang;Lee, Hye-Won;Cho, Sung-Bum;Kim, Ju-Han
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.29-34
    • /
    • 2005
  • DNA microarray becomes a major tool for the investigation of global gene expression in all aspects of cancer and biomedical research. DNA microarray experiment generates enormous amounts of data and they are meaningful only in the context of a detailed description of microarrays, biomaterials, and conditions under which they were generated. MicroArray Gene Expression Data (MGED) society has established microarray standard for structured management of these diverse and large amount data. MGED MAGE-OM (MicroArray Gene Expression Object Model) is an object oriented data model, which attempts to define standard objects for gene expression. To assess the relevance of DNA microarray analysis of cancer research it is required to combine clinical and genomics data. MAGE-OM, however, does not have an appropriate structure to describe clinical information of cancer. For systematic integration of gene expression and clinical data, we create a new model, Cancer Genomics Object Model.

  • PDF

마이크로어레이 데이터 공유 시스템 (Microarray Data Sharing System)

  • 윤지희;홍동완;이종근
    • 한국콘텐츠학회논문지
    • /
    • 제9권8호
    • /
    • pp.18-31
    • /
    • 2009
  • 최근, 마이크로어레이 실험 데이터의 품질과 재생산성에 대한 신뢰도가 증가하고 있어 마이크로어레이 데이터의 공유 및 활용에 대한 요구가 급속히 증가하고 있다. 그러나 공개되어 있는 국내, 외 마이크로어레이 데이터는 실험 방식, 플랫폼 등에 따라 서로 다른 데이터 항목과 포맷을 가지므로 데이터의 실제적 접근 및 활용이 어려운 상황이다. 본 논문에서는 실험 플랫폼, 데이터 포맷, 정규화 기법, 분석 방식 등이 서로 다른 기존의 마이크로어레이 데이터를 효율적으로 검색, 공유, 통합할 수 있는 마이크로어레이 데이터 공유 시스템을 제안한다. 제안된 시스템은 웹 서비스 기반 기술을 이용하여 분산된 마이크로어레이 데이터를 통합하며, 각 사이트의 사용자는 UDDI를 통하여 검색한 데이터를 표준 MGED 기반의 공통 데이터 구조로 자동 변환하여 다운 받을 수 있다. 정의된 공통 데이터 구조는 IDF,ADF,SDRF,EDF로 구성되어 다양한 구조의 마이크로어레이를 통합할 수 있는 템플릿 역할을 수행하며, MAGE-ML, MAGE-TAB, XML Schema 문서로 저장할 수 있다. 또한 제안된 시스템의 자동 데이터 제출기, 파일 관리자 등은 마이크로어레이 데이터 공유를 위한 다양한 부가 기능을 제공한다.

TMA-OM(Tissue Microarray Object Model)과 주요 유전체 정보 통합

  • 김주한
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2006년도 Principles and Practice of Microarray for Biomedical Researchers
    • /
    • pp.30-36
    • /
    • 2006
  • Tissue microarray (TMA) is an array-based technology allowing the examination of hundreds of tissue samples on a single slide. To handle, exchange, and disseminate TMA data, we need standard representations of the methods used, of the data generated, and of the clinical and histopathological information related to TMA data analysis. This study aims to create a comprehensive data model with flexibility that supports diverse experimental designs and with expressivity and extensibility that enables an adequate and comprehensive description of new clinical and histopathological data elements. We designed a Tissue Microarray Object Model (TMA-OM). Both the Array Information and the Experimental Procedure models are created by referring to Microarray Gene Expression Object Model, Minimum Information Specification For In Situ Hybridization and Immunohistochemistry Experiments (MISFISHIE), and the TMA Data Exchange Specifications (TMA DES). The Clinical and Histopathological Information model is created by using CAP Cancer Protocols and National Cancer Institute Common Data Elements (NCI CDEs). MGED Ontology, UMLS and the terms extracted from CAP Cancer Protocols and NCI CDEs are used to create a controlled vocabulary for unambiguous annotation. We implemented a web-based application for TMA-OM, supporting data export in XML format conforming to the TMA DES or the DTD derived from TMA-OM. TMA-OM provides a comprehensive data model for storage, analysis and exchange of TMA data and facilitates model-level integration of other biological models.

  • PDF

A DNA Microarray LIMS System for Integral Genomic Analysis of Multi-Platform Microarrays

  • Cho, Mi-Kyung;Kang, Jason Jong-ho;Park, Hyun-Seok
    • Genomics & Informatics
    • /
    • 제5권2호
    • /
    • pp.83-87
    • /
    • 2007
  • The analysis of DNA microarray data is a rapidly evolving area of bioinformatics, and various types of microarray are emerging as some of the most exciting technologies for use in biological and clinical research. In recent years, microarray technology has been utilized in various applications such as the profiling of mRNAs, assessment of DNA copy number, genotyping, and detection of methylated sequences. However, the analysis of these heterogeneous microarray platform experiments does not need to be performed separately. Rather, these platforms can be co-analyzed in combination, for cross-validation. There are a number of separate laboratory information management systems (LIMS) that individually address some of the needs for each platform. However, to our knowledge there are no unified LIMS systems capable of organizing all of the information regarding multi-platform microarray experiments, while additionally integrating this information with tools to perform the analysis. In order to address these requirements, we developed a web-based LIMS system that provides an integrated framework for storing and analyzing microarray information generated by the various platforms. This system enables an easy integration of modules that transform, analyze and/or visualize multi-platform microarray data.

마이크로어레이 실험 및 분석 데이터 처리를 위한 통합 관리 시스템의 설계와 구현 (Design and Implementation of Integrated System for Microarray Data)

  • 이미경;최정현;조환규
    • 한국미생물·생명공학회지
    • /
    • 제31권2호
    • /
    • pp.182-190
    • /
    • 2003
  • 마이크로어레이 기술이 널리 이용됨에 따라 마이크로어레이 이미지 데이터와 이미지 분석 데이터들이 급격히 늘어나고 있다. 그러나 국내에서는 그 데이터들을 효율적으로 관리하기 위한 시스템이 개발되어 공개된 경우가 없다. 그리고 마이크로어레이 실험은 한 실험실에서 분석하고 연구할 수 있는 유전자의 수가 제한되어 있으므로 서로 다른 연구실에서 실험한 연구 결과들을 공유함으로써 실험의 중복을 막을 수 있고 그 연구 결과들을 축척할 수 있다. 본 논문에서는 마이크로어레이 이미지 데이터를 처리 및 관리하기 위한 통합 시스템, WEMA(Web management of MicroArray)를 개발하였다. WEMA는 마이크로어레이 데이터 표준 규정의 제안인 MIAME(Minimal Information About a Microarray Experiment)에서 정의한 데이터 요소를 바탕으로 데이터 스키마를 설계하였으며 마이크로어레이 실험 설계에 따라 체계적으로 데이터를 관리하기 위해서 공동적인 데이터 단위를 정의하였다. WEMA의 주요 기능은 마이크로어레이 이미지 및 분석 데이터의 효율적인 관리, 데이터입출력의 통합 기능, 메타 파일 생성 등이다. 본 WEMA 시스템을 이용해서 실제로 한 식물 분자 생물학 연구실에서 만들어내는 마이크로어레이 이미지 데이터를 처리, 관리한 결과 생물학자들이 마이크로어레이 데이터를 체계적으로 관리, 분석할 수 있었으며 연구자들간의 데이터 교환 및 의사 소통이 원활히 이루어졌다.

UML을 활용한 마이크로어레이 정보시스템의 객체지향분석 (Application of UML (Unified Modeling Language) in Object-oriented Analysis of Microarray Information System)

  • Park, Ji-Yeon;Chung, Hee-Joon;Kim, Ju-Han
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.147-154
    • /
    • 2003
  • Microarray information system is a complex system to manage, analyze and interpretate microarray gene expression data. Establishment of well-defined development process is very essential for understanding the complexity and organization of the system. We performed object-oriented analysis using Unified Modeling Language (UML) in specifying, visualizing and documenting microarray information system. The object-oriented analysis consists of three major steps: (i) use case modeling to describe various functionalities from the user's perspective (ii) dynamic modeling to illustrate behavioral aspects of the system (iii) object modeling to represent structural aspects of the system. As a result of our modeling activities we provide the UML diagrams showing various views of the microarray information system. We believe that the object-oriented analysis ensures effective documentations and communication of information system requirements. Another useful feature of object-oriented technique is structural continuity to standard microarray data model MAGE-OM (Microarray Gene Expression Object Model). The proposed modeling e(forts can be applicable for integration of biomedical information system.

  • PDF

2 단계 접근법을 통한 통합 마이크로어레이 데이타의 분류기 생성 (Building a Classifier for Integrated Microarray Datasets through Two-Stage Approach)

  • 윤영미;이종찬;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권1호
    • /
    • pp.46-58
    • /
    • 2007
  • 마이크로어레이 데이타는 동시에 수 만개 유전자의 발현 값을 포함하고 있기 때문에 질병의 발현 형질 분류에 매우 유용하게 쓰인다. 그러나 동일한 생물학적 주제라 할지라도 여러 독립된 연구 집단에서 생성된 마이크로어레이의 분석결과는 서로 다르게 나타날 수 있다. 이에 대한 주된 이유는 하나의 마이크로어레이 실험에 참여한 샘플의 수가 제한적이기 때문이다. 따라서 개별적으로 수행된 마이크로어레이 데이타를 통합하여 샘플의 수를 늘리는 것은, 보다 정확한 분석을 하는데 있어 매우 중요하다. 본 연구에서는 이에 대한 해결 방안으로 두 단계 접근방법을 제안한다. 제 1 단계에서는 개별적으로 생성된 동일주제의 마이크로어레이 데이타를 통합한 후 인포머티브(Informative) 유전자를 추출하고 제 2 단계에서는 인포머티브 유전자만을 이용하여 클래스 분류(Classification) 과정 후 분류자를 추출한다. 이 분류자를 다른 테스트 샘플 데이타에 적용한 실험결과를 보면 마이크로어레이 데이타를 통합하여 샘플의 수를 증가시킬수록, 비교 방법에 비해 정확도가 최대 24.19% 높은 분류자를 만들어 내는 것을 알 수 있다.

Significant Gene Selection Using Integrated Microarray Data Set with Batch Effect

  • Kim Ki-Yeol;Chung Hyun-Cheol;Jeung Hei-Cheul;Shin Ji-Hye;Kim Tae-Soo;Rha Sun-Young
    • Genomics & Informatics
    • /
    • 제4권3호
    • /
    • pp.110-117
    • /
    • 2006
  • In microarray technology, many diverse experimental features can cause biases including RNA sources, microarray production or different platforms, diverse sample processing and various experiment protocols. These systematic effects cause a substantial obstacle in the analysis of microarray data. When such data sets derived from different experimental processes were used, the analysis result was almost inconsistent and it is not reliable. Therefore, one of the most pressing challenges in the microarray field is how to combine data that comes from two different groups. As the novel trial to integrate two data sets with batch effect, we simply applied standardization to microarray data before the significant gene selection. In the gene selection step, we used new defined measure that considers the distance between a gene and an ideal gene as well as the between-slide and within-slide variations. Also we discussed the association of biological functions and different expression patterns in selected discriminative gene set. As a result, we could confirm that batch effect was minimized by standardization and the selected genes from the standardized data included various expression pattems and the significant biological functions.