• Title/Summary/Keyword: 유전자 데이터

Search Result 662, Processing Time 0.034 seconds

cDNA Microarray data Analysis and Management System: cMAMS (cDNA 마이크로어레이 데이터의 분석과 관리 시스템: cMAMS)

  • 김상배;김효미;이은정;김영진;박정선;박윤주;정호열;고인송
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.247-249
    • /
    • 2004
  • 마이크로어레이 기술은 근래에 개발된 신기술로써 동시에 수천-수만 개의 유전자 발현을 측정할 수 있어 다양한 생물학적 연구에 이용되고 있다. 여러 단계의 실험 과정과 이를 통해 얻은 다량의 데이터를 처리하기 위해서는 이를 효율적으로 관리. 저장, 분석할 수 있는 통할 정보 관리 시스템을 필요로 한다. 현재 외국에서는 몇몇 관리시스템이 개발되어 있고. 국내에서도 WEMA 등이 있지만 아직 데이터 관리부분에 기능이 치우쳐 있다. 따라서 우리는 복잡한 자료구조를 가지는 마이크로어레이의 실험 정보와 각 단계별 처리 정보 등을 사용자의 관점에서 효과적이고 체계적으로 관리할 수 있고, 데이터 정규화 및 다양한 통계적 분석 기능을 갖춰 불필요한 시간과 비용을 줄임으로써 마이크로어레이 연구에 도움을 주고자 통합 분석관리 시스템 cMAMS (cDNA Microarray Analysis and Management System)를 개발하였다. 웹 기반으로 구현된 cMAMS는 데이터를 저장, 관리하는 부분과 데이터를 분석하는 부분, 그리고 모든 관련 점보가 저장되는 데이터베이스 부분으로 구성되어 있다 데이터관리부분에서는 WEMA의 계층적 데이터구조론 도입해 관리의 효율성을 높이고 시스템의 이용자를 시스템운영자, 프로젝트관리자, 일반사용자로 구분하여 데이터 접근을 제한함으로써 보안성을 높였다. 통계처리 언어 R로 구현된 데이터분석 부분은 7 단계의 다양한 분석(전처리 정규화, 가시화, 군집분석. 판별분석, 특이적 발현 유전자 선뿐, 마이크로어레이 간의 상판분석)이 가능하도록 구현하였고, 분석결과는 데이터베이스에 저장되어 추후에 검토 및 연구자간의 공유가 가능하도록 하였다. 데이터베이스는 실험정보가 저장된 데이터베이스, 분석결과가 저장된 데이터베이스, 그리고 유전자 정보 탐색을 위한 데이터베이스로 분류해 데이터를 효율적으로 관리할 수 있게 하였다. 본 시스템은 LiNUX를 운영체계로 하고 데이터베이스는 MYSQL로 하여 JSP, Perl. 통계처리 언어인 R로 구현되었다.

  • PDF

과도현상 데이터를 이용한 영광 3호기 증기발생기 모델 개발

  • 이용관;조병학;이명수
    • Proceedings of the Korean Nuclear Society Conference
    • /
    • 1997.05a
    • /
    • pp.159-165
    • /
    • 1997
  • 영광 3호기에서 발생한 부하탈락으로 인만 과도현상 때의 운전 데이터를 이용하여 전체의 운전 영역에서 잘 맞는 증기 발생기의 모델을 개발하였다. 모델링 기법으로는 유전자 알고리즘이 사용되었으며, 모델은 물리변수(물리적 의미를 갖는 변수)를 갖는 함수들로 구성하였다. 과도현상시의 데이터를 이용하여 증기발생기의 시변 특성을 직접 추정하기 위해 일부 물리변수를 급수온도에 대해 비선형으로 정의하였다. 잘 알려져 있는 실측 데이터를 사용하는 모델링 기법들은 선형 시불변 계에서만 적용이 가능하여 증기발생기와 같이 강한 시변 특성을 보이는 계의 모델링에 과도현상 때의 데이터를 적용할 수 없다. 물리변수를 직접 추정하면 물리적 원칙에 의해 값의 범위가 주어지며 운전 경험 또는 개략적인 데이터의 분석에 의해 예상되는 값의 범위를 비교적 작게 정할 수 있으므로 유전자 알고리즘의 적용에 유리하다. 얻어진 모델은 영광 3호기 운전원 훈련용 시뮬레이터와 발전소 설계 자료에 의해 검증되었다. 이 모델은 제어기의 설계 및 조정과 증기유량 측정 계열의 비선형 교정에도 사용될 수 있다.

  • PDF

A Study on Fitness Function of Clustering Algorithm based on Genetic Algorithm (유전자 알고리즘을 이용한 군집화 기법의 적합도 함수에 관한 연구)

  • 이수정;권혜련;김은주;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.310-312
    • /
    • 2001
  • 최근 관심의 대상이 되고 있는 CRM, eCRM에는 데이터 마이닝 기법이 핵심 기술로 이용되고 있다. 이러한 데이터 마이닝 기법가운데 가장 널리 사용되고 있는 군집화는, 데이터 집합을 유사한 데이터의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 것이다. 그런데 기존의 군집화 알고리즘은 사전에 군집의 개수를 미리 결정해줘야 하고 잡음에 민감하여 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 이러한 문제점의 개선을 위해, 본 논문에서는 유사도 개념을 적합도 함수로 사용하는 유전자 알고리즘을 적용한 군집화 기법을 제안하다. 특히 적합도 하수에 사용된 군집의 대표값 개념은 요약 정보만을 이용하여 계산속도가 향상되기 때문에 대용량 데이터를 다루는 마이닝에 적합할 것을 기대된다.

  • PDF

Using Genetic Algorithms for Intrusion Detection Systems (유전자알고리즘을 적용한 침입탐지시스템)

  • 양지홍;김명준;한명묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.517-519
    • /
    • 2002
  • 침입탐지 시스템은 정밀성자 적응성, 그리고 확장성을 필요로 한다. 이와 같은 조건을 포함하면서 복잡한 Network 환경에서 중요하고 기밀성이 유지되어야 할 리소스를 보호하기 위해, 우리는 더욱 구조적이며 지능적인 IDS(Intrusion Detection Systems) 개발의 필요성이 요구되고 있다. 본 연구는 데이터 마이닝(Data mining)을 통해 입 패턴, 즉 침입 규칙(Rules)을 생성한다. 데이터 마이닝 기법 중 분류(Classification)에 초점을 맞추어 분석과 실험을 하였으며, 사용된 데이터는 KDD데이터이다. 이 데이터를 중심으로 침입 규칙을 생성하였다. 규칙생성에는 유전자알고리즘(Genetic Algorithm : GAs)을 적용하였다. 즉, 오용탐지(Misuse Detection) 기법을 실험하였으며, 생성된 규칙은 침입데이터를 대표하는 규칙으로 비정상 사용자와 정상 사용자를 분류하게 된다. 규칙은 "Time Based Traffic Model", "Host Based Traffic Model", "Content Model" 이 세 가지 모듈에서 각각 상이한 침입 규칙을 생성하게 된다. 본 시스템에서 도출된 침입 규칙은 430M Test data set에서 테스트한 결과 평균 약94.3%의 성능 평가 결과를 얻어 만족할 만한 성과를 보였다.의 성능 평가 결과를 얻어 만족할 만한 성과를 보였다.

  • PDF

Learning of RNA Structural Grammar using Genetic Programming (유전자 프로그래밍을 이용한 RNA 구조 문법 학습)

  • 남진우;정제균;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.425-427
    • /
    • 2003
  • RNA는 세포내에서 유전자 발현에 직, 간접적으로 중요한 역할을 하며, RNA 구조는 세포 내에서의 기능과 깊은 연관이 있기 때문에 RNA 구조를 예측하는 것은 중요한 의미를 갖는다, 본 논문에서는 진화연산의 한가지인 유전자 프로그래밍(genetic programming) 방법을 사용하여 염기서열 정보를 참고하는 RNA 구조 문법의 학습 방법을 보여 준다. 이 RNA 구조를 의미하는 문법을 트리(tree)형태의 함수로 코드화(encoding) 한 후 이것을 유전자 프로그래밍 방법으로 진화시킨다. 진화를 통해 최적의 적합도를 갖는 트리의 문법을 테스트 데이터를 통해 평가한 결과 0.893의 특이도(speicificity)와 0.752의 민감도(sensitivity)를 보였다.

  • PDF

Performance Evaluation of Machine Learning Classifiers for Cancer Classification (암 분류를 위한 기계학습 분류기의 성능평가)

  • Won, Hong-Hee;Cho, Sung-Bae
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.405-408
    • /
    • 2002
  • Microarray 기술의 발전으로 많은 양의 유전자 정보를 얻게 되어 암의 정확한 분류와 진단에 대한 기대가 커지고 있다. 암을 정확하게 분류하기 위해서는 추출된 유전자에 많은 잡음이 들어가기 때문에 암과 관련이 있는 유전자만을 추출할 필요가 있다. 본 논문에서는 여러 가지 유전자 추출방법과 다양한 분류기의 성능을 체계적으로 평가하기 위하여, 세 가지 벤치마크 암 데이터에 대하여 실험하여 보았다. 또한 분류 성능을 향상시키기 위하여 분류기를 적절하게 결합한 결과, 결합된 분류기의 성능을 확인해볼 수 있었다.

  • PDF

Evolutionary Algorithm to Construct Regulatory Genetic Network (유전자 조절 네트웍 구축을 위한 진화알고리즘 기법)

  • 정제균;오석준;남진우;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.431-433
    • /
    • 2003
  • 유전자 네트웍 구축은 다양한 생물학적 실험 결과를 통하여 유전자간의 관계를 모델링하는 작업이다. 현재 유전자 섭동(perturbation) 실험은 대규모 유전자 조절 네트웍(regulatory genetic network) 구축을 위한 중요한 데이터로 인식되고 있다. 하지만 유전자 섭동 실험에 의한 결과는 하나의 유전자가 다른 유전자에 대하여 직접적 또는 간접적인 영향을 주는 지에 대한 정보를 파악하기 어렵다. 본 논문은 이러한 문제점을 해결하기 위하여 섭동 실험에 의한 결과로부터 생성된 복잡한 유전자 관계를 실제 생물마적 네트웍 형태로 단순화시키는 진화알고리즘을 제안하고자 한다. 실험은 진화 알고리즘이 임의의 복잡한 네트웍에 대하여 다양한 후보 네트웍 해를 제시해 줄 수 있는 결과를 보여 주고 있다.

  • PDF

Searching for the regulated gene groups through temporal profiling of microarray expressions based on the latent variable learning model (은닉변수학습 모형에 기반한 시간적 프로파일을 이용한 조절 유전자군의 탐색)

  • Yang Jin-San;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.40-42
    • /
    • 2006
  • 유전자 발현에 있어서의 조절작용은 유전자간의 복합적인 상호작용의 결과에 기인한다. 따라서 이러한 현상으로부터 기능적으로 연관된 유전자 군을 식별하기 위해서는 단일 유전자보다는 복수의 유전자군의 발현패턴을 대상으로 하게 된다. 이 경우 발현패턴의 시간에 따른 다양하고 복잡한 특징들은 은닉변수학습 모형을 이용하므로서 보다 명확하게 표현될 수 있고, 유사한 기능을 가진 유전자 군을 탐색 하는데에 효과적으로 이용될 수 있다. 본 논문에서 제시된 은닉변수학습 모형은 이스트 Cell Cycle 데이터에 적용한 결과 특정 조절유전자에 대하여 생물학적으로 연관된 유전자 군을 찾는 데에 다른 방법과 비교하여 효과적임을 보일 수 있었다.

  • PDF

Prediction for Periodontal Disease using Gene Expression Profile Data based on Machine Learning (기계학습 기반 유전자 발현 데이터를 이용한 치주질환 예측)

  • Rhee, Je-Keun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.8
    • /
    • pp.903-909
    • /
    • 2019
  • Periodontal disease is observed in many adult persons. However we has not clear know the molecular mechanism and how to treat the disease at the molecular levels. Here, we investigated the molecular differences between periodontal disease and normal controls using gene expression data. In particular, we checked whether the periodontal disease and normal tissues would be classified by machine learning algorithms using gene expression data. Moreover, we revealed the differentially expression genes and their function. As a result, we revealed that the periodontal disease and normal control samples were clearly clustered. In addition, by applying several classification algorithms, such as decision trees, random forests, support vector machines, the two samples were classified well with high accuracy, sensitivity and specificity, even though the dataset was imbalanced. Finally, we found that the genes which were related to inflammation and immune response, were usually have distinct patterns between the two classes.

The Intelligent Intrusion Detection Systems using Automatic Rule-Based Method (자동적인 규칙 기반 방법을 이용한 지능형 침입탐지시스템)

  • Yang, Ji-Hong;Han, Myung-Mook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.12 no.6
    • /
    • pp.531-536
    • /
    • 2002
  • In this paper, we have applied Genetic Algorithms(GAs) to Intrusion Detection System(TDS), and then proposed and simulated the misuse detection model firstly. We have implemented with the KBD contest data, and tried to simulated in the same environment. In the experiment, the set of record is regarded as a chromosome, and GAs are used to produce the intrusion patterns. That is, the intrusion rules are generated. We have concentrated on the simulation and analysis of classification among the Data Mining techniques and then the intrusion patterns are produced. The generated rules are represented by intrusion data and classified between abnormal and normal users. The different rules are generated separately from three models "Time Based Traffic Model", "Host Based Traffic Model", and "Content Model". The proposed system has generated the update and adaptive rules automatically and continuously on the misuse detection method which is difficult to update the rule generation. The generated rules are experimented on 430M test data and almost 94.3% of detection rate is shown.3% of detection rate is shown.