• Title/Summary/Keyword: 바이오 데이터 분석

Search Result 702, Processing Time 0.026 seconds

Application of emerging patterns for multi-source data classification and analysis (멀티 소스 데이터 분류와 분석을 위한 이머징 패턴의 적용 방법)

  • Yoon Hye-Sung;Lee Sang-Ho;Kim Ju Han
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.244-246
    • /
    • 2005
  • 상호작용하는 구조들을 하나의 클래스로 표현하는 데이터 마이닝 툴로서 이머징 패턴(EP)이 최근에 제안되었다. 기존의 클러스터링 알고리즘과 패턴 마이닝 알고리즘은 고차원의 유전자 발현 데이터 흑은 같은 변수들(e.g. genes)을 가지고 실험한 멀티 소스 데이터 분석을 다루기에 부적절하고, 실험 결과를 이해하는 데에 어려움이 있다. 그러나 EP는 분류 트리의 형태로 표현 가능하기 때문에, 다양한 형식의 데이터를 분류하는 패턴들을 빠르고 간단하게 구성하여 데이터 분석이 가능하도록 돕는다. 본 논문에서는 멀티 소스 바이오 데이터에서 분류 절차의 작업을 향상시키기 위하여 EP를 사용하는 간단한 스킴을 제안한다.

  • PDF

Integration of Distributed Biological Data using Modified K-means Algorithm (K-means 알고리즘을 사용한 분산 바이오 데이터 통합화)

  • Ryu, Byung-Gul;Shin, Dong-Kyoo;Shin, Dong-Il;Jeong, Jong-Il
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.32-35
    • /
    • 2007
  • Bioinformatics의 목표는 생물학적인 질의를 해결하는 것과 생물학자들이 수집된 데이터를 분석하고 검색을 하여 생물학자들이 정확한 일을 수행하는 것이다. 인터넷은 여러 조사 그룹의 데이터베이스에 동시에 접근가능한 수단을 제공했으나 이러한 분산 환경에서 많은 양의 데이터는 전송 시의 시간 지연 문제와 최종 검색시의 느린 검색 속도 문제를 나타낸다. 데이터 클러스터링은 데이터의 검색시 이러한 문제점을 해결하기 위하여 이용될 수 있는 방법이지만 단순 적용시에는 데이터의 양에 비례하는 실행 시간이 또 다른 문제를 발생시킨다. 본 논문에서는 바이오데이터의 효율적인 클러스터링을 위한 개선된 분산 클러스터링 시나리오와 이를 위해 수정된 K-means 알고리즘을 제시한다. 최종 실험 결과는 20% 이상 향상된 실행 속도를 보여준다.

  • PDF

Development of Multidimensional Analysis System for Bio-pathways (바이오 패스웨이 다차원 분석 시스템 개발)

  • Seo, Dongmin;Choi, Yunsoo;Jeon, Sun-Hee;Lee, Min-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.11
    • /
    • pp.467-475
    • /
    • 2014
  • With the development of genomics, wearable device and IT/NT, a vast amount of bio-medical data are generated recently. Also, healthcare industries based on big-data are booming and big-data technology based on bio-medical data is rising rapidly as a core technology for improving the national health and aged society. A pathway is the biological deep knowledge that represents the relations of dynamics and interaction among proteins, genes and cells by a network. A pathway is wildly being used as an important part of a bio-medical big-data analysis. However, a pathway analysis requires a lot of time and effort because a pathway is very diverse and high volume. Also, multidimensional analysis systems for various pathways are nonexistent even now. In this paper, we proposed a pathway analysis system that collects user interest pathways from KEGG pathway database that supports the most widely used pathways, constructs a network based on a hierarchy structure of pathways and analyzes the relations of dynamics and interaction among pathways by clustering and selecting core pathways from the network. Finally, to verify the superiority of our pathway analysis system, we evaluate the performance of our system in various experiments.

Design of the System and Algorithm for the Pattern Analysis of the Bio-Data (바이오 데이터 패턴 분석을 위한 시스템 및 알고리즘 설계)

  • Song, Young-Ohk;Kim, Sung-Young;Chang, Duk-Jin
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.8
    • /
    • pp.104-110
    • /
    • 2010
  • In the field of biotechnology, computer can play varied roles such as the ordinal analysis, ordianl comparison, nutation tracing, analogy comparison for drug design, estimation of protein function, cell mechanism, and verifying the role of a gene for preventing diseases. Additionally, by constructing database, it can provide an application for the cloning process in other data researches, and be used as a basis for the comparative genetics. For the most of researcher about biotechnology, they need to use the tool that can do all of job above. This study is focused on looking into problems of existing systems to analysis bio data, and designing an improved analyzing system that can propose a solution. In additional, it has been considered to improve the performance of each constituent, and all the constituents, which have been separately processed, are combind in a single system to get over old problems of the existing system.

Entity-Relationship Modeling for Integrating Heterogeneous Bio-databases (이질형 바이오 데이터베이스 통합을 위한 개체-관련성 모델링)

  • Jung, Jin-Hee;Lee, Do-Heon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.69-72
    • /
    • 2001
  • 유전체 연구를 위해 구축된 바이오 데이터베이스는 해당 프로젝트의 목적에 따라 서로 다른 주체에 의해 독립적으로 구축되어 왔다. 그러나 바이오 데이터의 효과적인 판용을 위해서는 그러한 이질적인 바이오 데이터베이스의 정보를 상호 연계하여 분석한 필요성이 높아지고 있다. 본 논문에서는 대표적인 핵산 데이터베이스인 GenBank와 단백질 데이터베이스인 SWISS-PROT, 문헌 데이터베이스인 PubMed의 데이터 구조를 개체-관련성 도표로 각각 모델링한 후 합병하여, 핵산-단백질-문헌자료로 연계되는 정보를 통합 서비스할 수 있는 모델과 시스템 구조를 제시한다.

  • PDF

Exploration of data alignment methods for bioassay analysis (생물 검정 데이터 정렬기법들의 비교 및 분석)

  • Kim, Han-Joo;Lee, Sung-Min;Park, Seung-Hyun;Yoon, Sung-Roh
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.453-455
    • /
    • 2012
  • 생물 검정(Bioassay)이란 생체 조직이나 분자의 구조 분석이나 기능 해석, 화합물이나 약에 의한 영향성을 실험하기 위해 실험체 조직과 약물의 상호작용에 의한 생성물의 양적 세기를 측정하는 과학적 실험 방법의 총칭이다. 바이오 어세이 실험 방법은 Gas Chromatography, 시험관 전기영동(Capillary Electrophoresis), 핵자기공명(NMR) 등의 다양한 실험 데이터를 포함한다. 결과로 생성된 실험 데이터를 정량적으로 분석하기 위해서는 일관성을 위해 얻어진 데이터를 정렬하는(alignment) 과정을 거쳐야 한다. 본 연구에서는 알려진 정렬 알고리즘들을 비교하기 위해, 알고리즘의 유형별로 분류하고 그 결과물을 분석하여 성능을 비교함과 동시에 특성을 파악하고자 한다.

Probabilistic model for bio-cells information extraction (바이오 셀 정보 추출을 위한 확률 모델)

  • Seok, Gyeong-Hyu;Park, Sung-Ho
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.6 no.5
    • /
    • pp.649-656
    • /
    • 2011
  • This study is a numerical representative modelling analysis for applying the process that unravels networks between cells in genetics to Network of informatics. Using the probabilistic graphical model, the insight from the data describing biological networks is used for making a probabilistic function. Rather than a complex network of cells, we reconstruct a simple lower-stage model and show a genetic representation level from the genetic based network logic. We made probabilistic graphical models from genetic data and extend them to genetic representation data in the method of network modelling in informatics.

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

Parallelization of Program Analysis using Data Dependency (데이터 의존 관계를 이용한 프로그램 분석 병렬화)

  • Heo, Ki-Hong;Lee, Woo-Suk;Oh, Hak-Joo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.431-433
    • /
    • 2012
  • 스파스 분석(Sparse analysis)은 프로그램의 데이터 의존관계(Data dependency)에 따라 필요한 정보를 필요한 부위와 시점으로 바로 보냄으로써 분석을 수행한다. 이 데이터 의존관계의 성질을 이용하면 프로그램 분석을 효율적으로 병렬화 할 수 있는 여지가 생긴다. 이 논문에서는 데이터 의존 관계를 이용하여 스파스 분석을 병렬화 하는 방법을 제시한다. 9개 오픈소스를 통해 실험해본 결과, 프로그램에 따라 6~37%, 평균적으로는 24% 가량 속도가 향상되었다.