Search | Korea Science

Features Reduction and Baysian Networks Learning for Efficient Medical Data Mining (효율적인 의료데이터마이닝을 위한 특징축소와 레이지안망 학습)

정용규;김인철
- Proceedings of the Korea Inteligent Information System Society Conference
- /
- 2002.11a
- /
- pp.258-265
- /
- 2002
베이지안망은 기존의 방법에 비해 불확실한 상황에서도 지식을 표현하고 결론을 추론하는데 유용한 것으로 알려져 있다. 본 논문에서는 대표적인 베이지안망 분류기들을 제시하고, 동일 임상데이터에 대해 서로 다른 유형별 베이지안망 분류기들을 학습하였다. 베이지안망을 적용할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 어려움이 있다. 본 연구에서는 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아보았다. 분류기들의 성능에서는 축소한 특징집합으로부터 얻은 베이지안망으로 확장한 나이브 베이지안망 분류기가 가장 우수한 정확도를 가짐을 실험을 통해 알 수 있었다.
PDF

Features Reduction and Baysian Networks Learning for Medical Datamining (의료데이터마이닝을 위한 특징축소와 베이지안망 학습)

정용규
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04b
- /
- pp.595-597
- /
- 2004
본 연구에서는 베이지안망을 기초로 불임환자의 임상 데이터에 대한 다양한 실험을 전개한다. 실험을 통해 임신여부에 영향을 주는 요인들간의 상호 의존성을 분석하고. 또 제약조건이 다른 다양한 베이지안망의 대표적 유형으로 나이브 베이지안망(NBN), 베이지안망으로 확장한 나이브 베이지안망(BAN), 일반 베이지안앙(GBN) 분류기들의 분류성능을 서로 비교 분석한다. 베이지안망을 적응할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 시간의 요구량이 급격히 많아진다. 따라서 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소 방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아본다.
PDF

Hierarchical Bayesian Network Learning for Large-scale Data Analysis (대규모 데이터 분석을 위한 계층적 베이지안망 학습)

Hwang Kyu-Baek;Kim Byoung-Hee;Zhang Byoung-Tak
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.07b
- /
- pp.724-726
- /
- 2005
베이지안망(Bayesian network)은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 이러한 베이지안망은 비감독학습(unsupervised teaming)을 통한 데이터마이닝에 적합하다. 이를 위해 데이터로부터 베이지안망의 구조와 파라미터를 학습하게 된다. 주어진 데이터의 likelihood를 최대로 하는 베이지안망 구조를 찾는 문제는 NP-hard임이 알려져 있으므로, greedy search를 통한 근사해(approximate solution)를 구하는 방법이 주로 이용된다. 하지만 이러한 근사적 학습방법들도 데이터를 구성하는 변수들이 수천 - 수만에 이르는 경우, 방대한 계산량으로 인해 그 적용이 실질적으로 불가능하게 된다. 본 논문에서는 그러한 대규모 데이터에서 학습될 수 있는 계층적 베이지안망(hierarchical Bayesian network) 모델 및 그 학습방법을 제안하고, 그 가능성을 실험을 통해 보인다.
PDF

Gene Expression Data Analysis Using Bayesian Networks (베이지안망을 이용한 유전자 발현 테이터의 분석)

황규백;장병탁;김영택
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04b
- /
- pp.301-303
- /
- 2001
최근 DNA 칩 또는 마이크로어레이 기술의 발전으로 인해 한 세포 내의 수천 개의 유전자의 발현 정도를 동시에 측정할 수 있게 되었다. 이러한 마이크로어레이 데이터를 분석해서 암의 경과나 세포의 주기적 변화 등에 영향을 미치는 유전자들을 알아낼 수 있다. 본 논문에서는 베이지안망을 이용해서 마이크로어레이 데이터를 분석, 백혈병의 경과를 예측한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 각 유전자들간의 확률적 관계를 표현하는 그래프 모델로 각 유전자들간의 확률적 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 마이크로어레이 데이터에 대해서 학습된 베이지안망은 백혈병 경과 예측에 대해서 기존의 방법보다 뛰어난 성능을 보였다.
PDF

Classification of Gene Expression Data by Ensemble of Bayesian Networks (앙상블 베이지안망에 의한 유전자발현데이터 분류)

황규백;장정호;장병탁
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.04c
- /
- pp.434-436
- /
- 2003
DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.
PDF

A Method for Microarray Data Analysis based on Bayesian Networks using an Efficient Structural learning Algorithm and Data Dimensionality Reduction (효율적 구조 학습 알고리즘과 데이타 차원축소를 통한 베이지안망 기반의 마이크로어레이 데이타 분석법)

황규백;장정호;장병탁
- Journal of KIISE:Software and Applications
- /
- v.29 no.11
- /
- pp.775-784
- /
- 2002
Microarray data, obtained from DNA chip technologies, is the measurement of the expression level of thousands of genes in cells or tissues. It is used for gene function prediction or cancer diagnosis based on gene expression patterns. Among diverse methods for data analysis, the Bayesian network represents the relationships among data attributes in the form of a graph structure. This property enables us to discover various relations among genes and the characteristics of the tissue (e.g., the cancer type) through microarray data analysis. However, most of the present microarray data sets are so sparse that it is difficult to apply general analysis methods, including Bayesian networks, directly. In this paper, we harness an efficient structural learning algorithm and data dimensionality reduction in order to analyze microarray data using Bayesian networks. The proposed method was applied to the analysis of real microarray data, i.e., the NC160 data set. And its usefulness was evaluated based on the accuracy of the teamed Bayesian networks on representing the known biological facts.
PDF KSCI

Analysis of Gene-Drug Interactions Using Bayesian Networks (베이지안망을 이용한 유전자와 약물 간 관계 분석)

O, Seok-Jun;Hwang, Gyu-Baek;Jang, Jeong-Ho;Jang, Byeong-Tak
- Proceedings of the Korean Statistical Society Conference
- /
- 2002.05a
- /
- pp.91-97
- /
- 2002
최근의 생물학 연구를 위한 기기의 자동화 및 고속화는 생물학 관련 정보량의 급증을 가져오고 있다. 예를 들어, DNA chip에서 얻어지는 마이크로어레이(microarray)는 수천 종류의 유전자의 발현량을 동시에 측정한다. 이러한 기술들은 생물의 세포나 조직에서 일어나는 일련의 다양한 현상을 전체적으로 조망하는 관점에서 관찰할 수 있는 기회를 제공하고 있으며, 이를 통한 생명공학의 전반적인 발전이 기대되고 있다. 따라서 대량의 생물학 관련 정보의 분석이나 데이터 마이닝이 행해지고 있으며 이를 위한 대표적인 기법들로는 각종 클러스터링(clustering) 및 신경망 계열의 모델 등이 있다. 본 논문에서는 확률그래프모델의 하나인 베이지안망(Bayesian network)을 생물정보분석에 이용한다. 구체적으로 유전자 발현패턴과 약물의 활성패턴 및 암 종류 사이의 확률적 관계를 모델링한다. 이러한 모델은 NCI60 dataset(http://discover.nci.nih.gov)에서 베이지안망을 학습함으로써 구성된다. 분석의 대상이 되는 데이터가 sparse하기 때문에 발생하는 어려움들을 해결하기 위한 기법들이 제시되며 학습된 모델에 대한 검증은 이미 생물학적으로 확인되어 있는 사실과의 비교를 통해 이루어진다. 학습된 베이지안망 모델은 각각의 유전자 간, 혹은 유전자와 처리된 약물 간의 실제 생물학적 관계를 다수 표현하며, 이는 제시되는 방법이 생물학적으로 유의미한 가설을 데이터 분석을 통해 효율적으로 생성하는데 유용하게 활용될 수 있음을 보인다.
PDF

Efficient Learning of Bayesian Networks using Entropy (효율적인 베이지안망 학습을 위한 엔트로피 적용)

Heo, Go-Eun;Jung, Yong-Gyu
- The Journal of the Institute of Internet, Broadcasting and Communication
- /
- v.9 no.3
- /
- pp.31-36
- /
- 2009
Bayesian networks are known as the best tools to express and predict the domain knowledge with uncertain environments. However, bayesian learning could be too difficult to do effective and reliable searching. To solve the problems of overtime demand, the nodes should be arranged orderly, so that effective structural learning can be possible. This paper suggests the classification learning model to reduce the errors in the independent condition, in which a lot of variables exist and data can increase the reliability by calculating the each entropy of probabilities depending on each circumstances. Also efficient learning models are suggested to decide the order of nodes, that has lowest entropy by calculating the numerical values of entropy of each node in K2 algorithm. Consequently the model of the most suitably settled Bayesian networks could be constructed as quickly as possible.
PDF

Analysis of Infertility Factors and Prediction of Pregnancy Using Bayesian (베이지안망을 이용한 불임요인 분석 및 가임예측)

Jung, Yong-Gyu;Jin, Hoon;Kim, In-Cheol
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.10b
- /
- pp.7-9
- /
- 2001
의료 분야에서의 데이터는 특성상 여러 측면을 복합적으로 고려해야 할 뿐만 아니라, 다른 분야에서의 데이터 성격과는 다르게 원인과 그 원인에 대한 해결책을 바로 찾아내기가 쉽지 않다. 본 연구에서는 불임환자들에 대한 검사기록 및 임신결과가 기록된 데이터를 이용하여 베이지안망 분류기를 생성하고 이를 통해 가임여부를 결정짓는 중요 항목 들간의 의존성을 조건확률로 나타내고 비교하였다. 또한 휴리스틱망, 나이브베이지안망 분류기를 생성하여 성능을 비교하였다. 결과적으로 총수정란수는 최상급수정란이식수에 강한 영향을 갖는다는 사전지식의 타당함을 입증할 수가 있었으며, 또한 성숙난자수가 총수정란수에 강한 영 향을 미치고 화학적임신과 임상적임신과 학습은 서로 독립이라는 가설에 대하여 전자의 경우는 간접적인 의존성을 갖고, 후자의 경우는 화학적 결과가 임상적 결과에 강한 의존성이 존재함을 밝혀낼 수 있었다. 분류기간의 성능에서는 자동생성된 베이지안망이 가장 우수한 정확도를 가짐을 측정할 수 있었다.
PDF

Learning Bayesian Networks for Text Documents Classification (텍스트 문서 분류를 위한 베이지안망 학습)

황규백;장병탁;김영택
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.04b
- /
- pp.262-264
- /
- 2000
텍스트 문서 분류는 텍스트 형태로 주어진 문서를 종류별로 구분하는 작업으로 웹페이지 검색, 뉴스 그룹 검색, 메일 필터링 등이 분야에 응용될 수 있는 기반 작업이다. 지금까지 문서를 분류하는데는 k-NN, 신경망 등 여러 가지 기계학습 기법이 이용되어 왔다. 이 논문에서는 베이지안망을 이용해서 텍스트 문서 분류를 행한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 DAG 형태인 망 구조와 각 노드에 연관된 지역확률분포로 구성된다. 그래프 모델을 사용할 경우 학습에 이용되는 각 속성들간의 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 실험 데이터로는 Reuters-21578 문서분류데이터를 이용했으며 베이안망의 성능은 나이브 베이즈 분류기와 비슷했다.
PDF

Search Result 17, Processing Time 0.022 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)