• 제목/요약/키워드: UCI machine learning repository

검색결과 57건 처리시간 0.023초

UCI machine learning repository 사용한 TCN-Prophet 기반 당뇨병 예측 (Diabetes Prediction with the TCN-Prophet model using UCI Machine Learning Repository)

  • 탄텐보;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.325-327
    • /
    • 2023
  • Diabetes is a common chronic disease that threatens human life and health, and its prevalence remains high because its mechanisms are complex, further its etiology remains unclear. According to the International Diabetes Federation (IDF), there are 463 million cases of diabetes in adults worldwide, and the number is growing. This study aims to explore the potential influencing factors of diabetes by learning data from the UCI diabetes dataset, which is a multivariate time series dataset. In this paper we propose the TCN-prophet model for diabetes. The experimental results show that the prediction of insulin concentration by the TCN-prophet model provides a high degree of consistency, compared to the existing LSTM model.

Multi-Sensor Signal based Situation Recognition with Bayesian Networks

  • Kim, Jin-Pyung;Jang, Gyu-Jin;Jung, Jae-Young;Kim, Moon-Hyun
    • Journal of Electrical Engineering and Technology
    • /
    • 제9권3호
    • /
    • pp.1051-1059
    • /
    • 2014
  • In this paper, we propose an intelligent situation recognition model by collecting and analyzing multiple sensor signals. Multiple sensor signals are collected for fixed time window. A training set of collected sensor data for each situation is provided to K2-learning algorithm to generate Bayesian networks representing causal relationship between sensors for the situation. Statistical characteristics of sensor values and topological characteristics of generated graphs are learned for each situation. A neural network is designed to classify the current situation based on the extracted features from collected multiple sensor values. The proposed method is implemented and tested with UCI machine learning repository data.

차분진화 기반의 Support Vector Clustering (A Differential Evolution based Support Vector Clustering)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제17권5호
    • /
    • pp.679-683
    • /
    • 2007
  • Vapnik의 통계적 학습이론은 분류, 회귀, 그리고 군집화를 위하여 SVM(support vector machine), SVR(support vector regression), 그리고 SVC(support vector clustering)의 3가지 학습 알고리즘을 포함한다. 이들 중에서 SVC는 가우시안 커널함수에 기반한 지지벡터를 이용하여 비교적 우수한 군집화 결과를 제공하고 있다. 하지만 SVM, SVR과 마찬가지로 SVC도 커널모수와 정규화상수에 대한 최적결정이 요구된다 하지만 대부분의 분석작업에서 사용자의 주관적 경험에 의존하거나 격자탐색과 같이 많은 컴퓨팅 시간을 요구하는 전략에 의존하고 있다. 본 논문에서는 SVC에서 사용되는 커널모수와 정규화상수의 효율적인 결정을 위하여 차분진화를 이용한 DESVC(differential evolution based SVC)를 제안한다 UCI Machine Learning repository의 학습데이터와 시뮬레이션 데이터 집합들을 이용한 실험을 통하여 기존의 기계학습 알고리즘과의 성능평가를 수행한다.

지역 기반 분류기의 앙상블 학습 (Ensemble Learning of Region Based Classifiers)

  • 최성하;이병우;양지훈
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.303-310
    • /
    • 2007
  • 기계학습에서 분류기틀의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되어왔다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하여 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 적용하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅 등을 UCI Machine Learning Repository에 있는 11개의 데이터 셋으로 정확도 비교를 하였다. 그 결과 새로운 앙상블 방법이 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

퍼지 가중치 평균 분류기에서 통계 정보를 활용한 가중치 설정 기법의 제안 (Proposal of Weight Adjustment Methods Using Statistical Information in Fuzzy Weighted Mean Classifiers)

  • 우영운;허경용;김광백
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권7호
    • /
    • pp.9-15
    • /
    • 2009
  • 퍼지 가중치 평균 분류기는 가중치를 적절히 설정함으로써 뛰어난 분류 성능을 얻을 수 있다는 장점이 있다. 그러나 일반적으로 가중치는 인식 문제 분야의 특성이나 해당 전문가의 지식과 주관적 경험을 기반으로 설정되므로 설정된 가중치의 일관성과 객관성을 보장하기가 어려운 문제점을 갖고 있다. 따라서 이 논문에서는 퍼지 가중치 평균 분류기의 가중치를 설정하기 위한 객관적 기준을 제시하기 위하여 특정값들 간의 통계적 정보를 이용한 가중치 설정 기법들을 제안하였다. 제안한 기법들의 효과를 조사하기 위하여 UCI machine learning repository 사이트에서 제공되는 표준 데이터들 중의 하나인 Iris 데이터 세트를 이용하여 실험하였으며, 그 결과 우수한 성능을 확인 할 수 있었다.

평가와 선택기법에 기반한 대표패턴 생성 알고리즘 (A Representative Pattern Generation Algorithm Based on Evaluation And Selection)

  • 이형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.139-147
    • /
    • 2009
  • 메모리 기반 추론 기법은 단순히 학습패턴이나 대표패턴의 형태로 메모리에 저장하며 테스트 패턴과의 거리 계산을 통하여 분류한다. 이 기법의 가장 큰 문제점은 학습 패턴 전체를 메모리에 저장하거나 학습 패턴들을 대표 패턴으로 대체하는 방법을 사용함으로 다른 기계학습 방법에 비하여 많은 메모리 공간을 필요로 하며, 저장되는 학습패턴이 증가할수록 분류에 필요한 시간도 많이 소요된다는 단점을 갖는다. 본 논문은 효율적인 메모리 사용과 분류 성능의 향상을 위한 EAS 기법을 제안하였다. 즉, 학습패턴에 대해 분할공간을 생성한 후 생성된 각 분할공간을 MDL기법과 PM기법으로 평가하였다. 그리고 평가 결과 가장 우수한 분할공간만을 취하여 대표패턴으로 삼고 나머지는 다시 분할하여 평가를 반복하는 기법이다. UCI Machine Learning Repository에서 벤치마크 데이터를 발췌한 실험 자료를 사용하여 제안한 기법의 성능과 메모리 사용량에 있어 우수함을 입증하였다.

Improvement of SOM using Stratification

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제9권1호
    • /
    • pp.36-41
    • /
    • 2009
  • Self organizing map(SOM) is one of the unsupervised methods based on the competitive learning. Many clustering works have been performed using SOM. It has offered the data visualization according to its result. The visualized result has been used for decision process of descriptive data mining as exploratory data analysis. In this paper we propose improvement of SOM using stratified sampling of statistics. The stratification leads to improve the performance of SOM. To verify improvement of our study, we make comparative experiments using the data sets form UCI machine learning repository and simulation data.

정보이득 분할을 이용한 분류기법의 지배적 초월평면 생성기법 (A dominant hyperrectangle generation technique of classification using IG partitioning)

  • 이형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.149-156
    • /
    • 2014
  • 중첩형 일반화 사례 (NGE, Nested Generalized Exemplar) 기법은 거리 기반 분류를 최적 일치 규칙으로 사용하며, 노이즈에 대한 내구력을 증가시켜 주는 동시에 모델 크기를 감소시키는 장점이 있다. NGE 학습 중 생성된 교차(cross)나 중첩(overlap) 현상은 분류성능을 저해하는 요인으로 작용한다. 따라서 본 논문은 NGE 학습 중 생성된 교차나 중첩 현상이 발생한 초월 평면에대해 상호정보가 가장 큰 구간을 분리하여, 새로운 초월평면을 구성하게 하여, 분류성능 향상시키고 초월평면의 개수를 감소시키는 기법인 DHGen(Dominant Hyperrectangle Generation) 알고리즘을 제안하였다. 제안한 DHGen은 분류성능면에서 kNN과 유사하고 NGE이론으로 구현한 EACH보다 우수함을 UCI Machine Learning Repository에서 벤치마크데이터를 발췌한 실험자료로 입증하였다.

Support Vector Machine based on Stratified Sampling

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제9권2호
    • /
    • pp.141-146
    • /
    • 2009
  • Support vector machine is a classification algorithm based on statistical learning theory. It has shown many results with good performances in the data mining fields. But there are some problems in the algorithm. One of the problems is its heavy computing cost. So we have been difficult to use the support vector machine in the dynamic and online systems. To overcome this problem we propose to use stratified sampling of statistical sampling theory. The usage of stratified sampling supports to reduce the size of training data. In our paper, though the size of data is small, the performance accuracy is maintained. We verify our improved performance by experimental results using data sets from UCI machine learning repository.

주성분 분석과 나이브 베이지안 분류기를 이용한 퍼지 군집화 모형 (Fuzzy Clustering Model using Principal Components Analysis and Naive Bayesian Classifier)

  • 전성해
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.485-490
    • /
    • 2004
  • 자조의 표현에서 군집화는 주어진 데이터를 서로 유사한 개체들끼리 몇 개의 집단으로 묶는 작업을 수행한다. 군집화의 유사도 결정 측도는 맡은 연구들에서 매우 다양한 것들이 사용되었다. 하지만 군집화 결과의 성능 측정에 대한 객관적인 기준 설정이 어렵기 때문에 군집화 결과에 대한 해석은 매우 주관적이고, 애매한 경우가 많다. 퍼지 군집화는 이러한 주관적인 군집화 문제에 있어서 객관성 있는 군집 결정 방안을 제시하여 준다. 각 개체들이 특정 군집에 속하게 될 퍼지 멤버 함수값을 원소로 하는 유사도 행렬을 통하여 군집화를 수행한다. 본 논문에서는 차원 축소기법의 하나인 주성분 분석과 강력한 통계적 학습 이론인 베이지안 학습을 결합한 군집화 모형을 제안하여, 객관적인 퍼지 군집화를 수행하였다. 제안 알고리즘의 성능 평가를 위하여 UCI Machine Loaming Repository의 Iris와 Glass Identification 데이터를 이용한 실험 결과를 제시하였다.