• 제목/요약/키워드: Bayes test

검색결과 110건 처리시간 0.023초

사상체질 진단검사를 위한 데이터마이닝 알고리즘 연구 (Data mining Algorithms for the Development of Sasang Type Diagnosis)

  • 홍진우;김영인;박소정;김병철;엄일규;황민우;신상우;김병주;권영규;채한
    • 동의생리병리학회지
    • /
    • 제23권6호
    • /
    • pp.1234-1240
    • /
    • 2009
  • This study was to compare the effectiveness and validity of various data-mining algorithm for Sasang type diagnostic test. We compared the sensitivity and specificity index of nine attribute selection and eleven class classification algorithms with 31 data-set characterizing Sasang typology and 10-fold validation methods installed in Waikato Environment Knowledge Analysis (WEKA). The highest classification validity score can be acquired as follows; 69.9 as Percentage Correctly Predicted index with Naive Bayes Classifier, 80 as sensitivity index with LWL/Tae-Eum type, 93.5 as specificity index with Naive Bayes Classifier/So-Eum type. The classification algorithm with highest PCP index of 69.62 after attribute selection was Naive Bayes Classifier. In this study we can find that the best-fit algorithm for traditional medicine is case sensitive and that characteristics of clinical circumstances, and data-mining algorithms and study purpose should be considered to get the highest validity even with the well defined data sets. It is also confirmed that we can't find one-fits-all algorithm and there should be many studies with trials and errors. This study will serve as a pivotal foundation for the development of medical instruments for Pattern Identification and Sasang type diagnosis on the basis of traditional Korean Medicine.

색인어 연관성을 이용한 의료정보문서 분류에 관한 연구 (A Study on Classification of Medical Information Documents using Word Correlation)

  • 임형근;장덕성
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.469-476
    • /
    • 2001
  • 현대사회에서 웹을 통한 정보 제공 서비스가 늘어나면서 병원에서도 홈페이지와 E-mail을 통하여 많은 질문과 상담이 진행되고 있다. 그러나, 이것은 관리자에 대한 업무부담과 답변에 대한 응답시간 지연의 문제가 있다. 본 논문에서는 이런 질의문서에 대한 자동응답시스템의 기초연구로 문서 분류 방법을 연구하였다. 실험방법으로 1200개의 환자질의문서를 대상으로 66%는 학습문서로, 34%는 테스트문서로 활용하여 이것을 NBC(Naive Bayes Classifier), 공통색인어, 연관계수를 이용한 문선분류에 사용하였다. 문서 분류 결과, 기본적인 NBC방법 보다는 본 논문에서 제안한 두 방법이 각각 3%, 5% 정도 더 높게 나타났다. 이러한 색인어의 빈도보다, 색인어와 카테고리간의 연관성이 문서 분류에 더 효과적이라는 것을 의미한다.

  • PDF

다중소스 데이터 융합 기반의 가스 누출 예측을 위한 선형 보간 및 머신러닝 기법 (Linear interpolation and Machine Learning Methods for Gas Leakage Prediction Base on Multi-source Data Integration)

  • 홍고르출;조겨리;김미혜
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.33-41
    • /
    • 2022
  • 본 논문에서는 다중 요인을 고려한 천연 가스 누출 정도 예측을 위해 관련 요인을 포함하는 기상청 자료와 천연가스 누출 자료를 통합하고, 요인 분석을 기반으로 중요 특성을 선택하는 머신러닝 기법을 제안한다. 제안된 기법은 3단계 절차로 구성되어 있다. 먼저, 통합 데이터 셋에 대해 선형 보간법을 수행하여 결측 데이터를 보완하는 전처리를 수행한다. 머신러닝 모델 학습 최적화를 위해 OrdinalEncoder(OE) 기반 정규화와 함께 요인 분석을 사용하여 필수 특징을 선택하며, 데이터 셋은 k-평균 클러스터링으로 레이블을 지정한다. 최종적으로 K-최근접 이웃, DT(Decision Tree), RF(Random Forest), NB(Naive Bayes)의 네 가지 알고리즘을 사용하여 가스 누출 수준을 예측한다. 제안된 방법은 정확도, AUC, 평균 표준 오차(MSE)로 평가되었으며, 테스트 결과 OE-F 전처리를 수행한 경우 기존 기법에 비해 성공적으로 개선되었음을 보였다. 또한 OE-F 기반 KNN(OE-F-KNN)은 95.20%의 정확도, 96.13%의 AUC, 0.031의 MSE로 비교 알고리즘 중 최고 성능을 보였다.

Random Forests 기법을 이용한 백내장 예측모형 - 일개 대학병원 건강검진 수검자료에서 - (A Prediction Model for the Development of Cataract Using Random Forests)

  • 한은정;송기준;김동건
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.771-780
    • /
    • 2009
  • 백내장 질환은 노령인구가 증가하고 있는 시점에서 사회, 경제적으로 심각한 문제로 부각되고 있는 질병으로 조기 진단이 이루어진다면 발병률을 크게 줄일 수 있는 질병이다. 본 연구에서는 백내장을 조기 진단하기 위한 예측 모형을 구축하고자 1994년부터 2001년까지 연세대학병원에서 2회 이상 건강검진을 받고 의사진단을 통해 백내장 여부를 확인할 수 있는 30세 이상 남 녀 3,237명에 대한 건강검진 수검 자료를 활용하여 백내장 발생 위험 예측모형을 개발하였다. 모형개발에는 데이터마이닝 기법인 Random Forests를 사용하였고, 기존의 로지스틱 회귀분석, 판별분석, 의사결정나무 모형(Decision tree), 나이브베이즈(Naive Bayes), 앙상블 모형인 배깅(Bagging)과 아킹(Arcing)을 이용하여 그 성능을 비교 분석하였다. Random Forests를 통해 개발한 백내장 발생 예측모형은 정확도가 67.16%, 민감도가 72.28%였고, 주요 영향요인은 연령, 혈당, 백혈구수치(WBC), 혈소판수치(platelet), 중성지질(triglyceride), BMI였다. 이 결과는 의사의 안과검진 정보 없이 건강검진 수검 자료만으로 백내장 질환 유 무에 관한 정보를 70% 정도 예측할 수 있음을 보여주는 것으로, 백내장의 조기 진단에 많은 기여를 할 것으로 판단된다.

정밀유도무기 특성을 고려한 명중률 및 신뢰수준 산정방안 (A study of estimating the hit probability and confidence level considering the characteristic of Precision Guided Missile)

  • 서보길;홍석진
    • 한국산학기술학회논문지
    • /
    • 제17권12호
    • /
    • pp.193-197
    • /
    • 2016
  • 현재 국내 유도무기 사격시험의 경우, 유도무기 사격 수량 대비 명중 수량으로 계산된 명중률만을 이용하여 국내 유도무기의 성능을 판단하고 있다. 명중률만으로는 생산된 유도무기 전체의 특성을 표현하지 못하므로 유도무기 사격시험결과에 따라 계산된 명중률을 활용하여 생산된 모든 유도무기의 성능을 판단하기에는 한계가 있다. 다시 말하면, 전력화되어 운용 중인 유도무기 또는 생산중인 유도무기의 명중률을 일정 수준 보장하기 위해서는 유도무기 사격시험 결과에 따라 계산된 단순 명중률보다 신뢰성이 높은 신뢰수준을 산정하는 것이 필요하다. 이에 따라 본 연구에서는 생산 수량이 적고, 고가이며, 유도무기 사격 시험을 수행하기 전에 유도무기 명중 여부 및 성능을 확인할 수 없는 유도무기 사업 특성을 고려하고, 유도무기 사업 특성에 적합한 초기하분포와 베이지안 규칙을 활용하여 최소 사격 수량으로 유도무기 신뢰수준을 산정하는 방법을 소개한다. 또한, 국내 유도무기 사격시험 결과 및 국내외 문헌을 활용하여 국내 유도무기 사격 시험 결과 판정 시 유도무기 성능을 확인할 수 있는 적정 신뢰수준을 제안한다.

Comparison Thai Word Sense Disambiguation Method

  • Modhiran, Teerapong;Kruatrachue, Boontee;Supnithi, Thepchai
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1307-1312
    • /
    • 2004
  • Word sense disambiguation is one of the most important problems in natural language processing research topics such as information retrieval and machine translation. Many approaches can be employed to resolve word ambiguity with a reasonable degree of accuracy. These strategies are: knowledge-based, corpus-based, and hybrid-based. This paper pays attention to the corpus-based strategy. The purpose of this paper is to compare three famous machine learning techniques, Snow, SVM and Naive Bayes in Word-Sense Disambiguation on Thai language. 10 ambiguous words are selected to test with word and POS features. The results show that SVM algorithm gives the best results in solving of Thai WSD and the accuracy rate is approximately 83-96%.

  • PDF

베이지안 기법을 이용한 주관적 가중선형효용모형 (The Subjectively Weighted Linear Utility Model using Bayesian Approach)

  • 김기윤;나관식
    • 한국경영과학회지
    • /
    • 제19권3호
    • /
    • pp.111-129
    • /
    • 1994
  • In this study, we develope a revised model as well as application of decision problem under ambiguity based on the subjectively weighted linear utility medel. Bayes'rule is used when there are ambiguous probabilities on a decision problem and test information is available. A procedure for assessing the ambiguity aversion function is also presented. Decision problem of chemical corporation is used for an illustration of the application of the subjectively weighted linear utility model using Bayesian approach. We present the optimal decisiond using newly developed model. We also perform the sensitivity analysis to assure ourselves about the conclusion we obtianed on degree of ambiguity aversion due to characterize parameter of subjectively weighted linear utility model.

  • PDF

Length-biased Rayleigh distribution: reliability analysis, estimation of the parameter, and applications

  • Kayid, M.;Alshingiti, Arwa M.;Aldossary, H.
    • International Journal of Reliability and Applications
    • /
    • 제14권1호
    • /
    • pp.27-39
    • /
    • 2013
  • In this article, a new model based on the Rayleigh distribution is introduced. This model is useful and practical in physics, reliability, and life testing. The statistical and reliability properties of this model are presented, including moments, the hazard rate, the reversed hazard rate, and mean residual life functions, among others. In addition, it is shown that the distributions of the new model are ordered regarding the strongest likelihood ratio ordering. Four estimating methods, namely, method of moment, maximum likelihood method, Bayes estimation, and uniformly minimum variance unbiased, are used to estimate the parameters of this model. Simulation is used to calculate the estimates and to study their properties. Finally, the appropriateness of this model for real data sets is shown by using the chi-square goodness of fit test and the Kolmogorov-Smirnov statistic.

  • PDF

다중 거칠기 벡터와 통계적 분류기를 이용한 초음파 간 영상 분류에 관한 연구 (A Study on the Classification of Ultrasonic Liver Images Using Multi Texture Vectors and a Statistical Classifier)

  • 정정원;김동윤
    • 대한의용생체공학회:의공학회지
    • /
    • 제17권4호
    • /
    • pp.433-442
    • /
    • 1996
  • Since one texture property(i.e coarseness, orientation, regularity, granularity) for ultrasound liver ages was not sufficient enough to classify the characteristics of livers, we used multi texture vectors tracted from ultrasound liver images and a statistical classifier. Multi texture vectors are selected among the feature vectors of the normal liver, fat liver and cirrhosis images which have a good separability in those ultrasound liver images. The statistical classifier uses multi texture vectors as input vectors and classifies ultrasound liver images for each multi texture vector by the Bayes decision rule. Then the decision of the liver disease is made by choosing the maximum value from the averages of a posteriori probability for each multi texture vector In our simulation, we obtained higtler correct ratio than that of other methods using single feature vector, for the test set the correct ratio is 94% in the normal liver, 84% in the fat liver and 86% in the cirrhosis liver.

  • PDF

Simulation studies to compare bayesian wavelet shrinkage methods in aggregated functional data

  • Alex Rodrigo dos Santos Sousa
    • Communications for Statistical Applications and Methods
    • /
    • 제30권3호
    • /
    • pp.311-330
    • /
    • 2023
  • The present work describes simulation studies to compare the performances in terms of averaged mean squared error of bayesian wavelet shrinkage methods in estimating component curves from aggregated functional data. Five bayesian methods available in the literature were considered to be compared in the studies: The shrinkage rule under logistic prior, shrinkage rule under beta prior, large posterior mode (LPM) method, amplitude-scale invariant Bayes estimator (ABE) and Bayesian adaptive multiresolution smoother (BAMS). The so called Donoho-Johnstone test functions, logit and SpaHet functions were considered as component functions and the scenarios were defined according to different values of sample size and signal to noise ratio in the datasets. It was observed that the signal to noise ratio of the data had impact on the performances of the methods. An application of the methodology and the results to the tecator dataset is also done.