• 제목/요약/키워드: UCI repository

검색결과 74건 처리시간 0.025초

UCI machine learning repository 사용한 TCN-Prophet 기반 당뇨병 예측 (Diabetes Prediction with the TCN-Prophet model using UCI Machine Learning Repository)

  • 탄텐보;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.325-327
    • /
    • 2023
  • Diabetes is a common chronic disease that threatens human life and health, and its prevalence remains high because its mechanisms are complex, further its etiology remains unclear. According to the International Diabetes Federation (IDF), there are 463 million cases of diabetes in adults worldwide, and the number is growing. This study aims to explore the potential influencing factors of diabetes by learning data from the UCI diabetes dataset, which is a multivariate time series dataset. In this paper we propose the TCN-prophet model for diabetes. The experimental results show that the prediction of insulin concentration by the TCN-prophet model provides a high degree of consistency, compared to the existing LSTM model.

유전자 알고리즘을 이용한 강인한 Support vector machine 설계 (Design of Robust Support Vector Machine Using Genetic Algorithm)

  • 이희성;홍성준;이병윤;김은태
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.375-379
    • /
    • 2010
  • Support vector machine (SVM)은 튼튼한 이론적 배경을 가지고 있고 구조적 위험을 성공적으로 최소화하기 때문에 추천가 시스템과 같은 다양한 패턴 인식 분야에서 사용되고 있다. 하지만 SVM이 초평면을 결정할 때 이상점들은 margin 손실들을 가지고 있기 때문에 이들은 초평면을 결정하는데 매우 중요한 역할을 하고 있다. 그 이유로 SVM은 이상점들에게 매우 민감한 문제점을 갖는다. 강인한 SVM을 위해 우리는 이상점들의 margin 손실의 최대치를 제한하지만 이것은 non-convex 최적화 문제를 포함한다. 따라서 본 논문에서는 non-convex 최적화 문제에 적합한 유전자 알고리즘을 이용하여 강인한 SVM을 설계하는 방법을 제안한다. 제안하는 알고리즘의 우수성을 보여주기 위하여 UCI repository에서 선택된 여러 데이터베이스들을 이용한 실험을 수행하였다.

Multi-Sensor Signal based Situation Recognition with Bayesian Networks

  • Kim, Jin-Pyung;Jang, Gyu-Jin;Jung, Jae-Young;Kim, Moon-Hyun
    • Journal of Electrical Engineering and Technology
    • /
    • 제9권3호
    • /
    • pp.1051-1059
    • /
    • 2014
  • In this paper, we propose an intelligent situation recognition model by collecting and analyzing multiple sensor signals. Multiple sensor signals are collected for fixed time window. A training set of collected sensor data for each situation is provided to K2-learning algorithm to generate Bayesian networks representing causal relationship between sensors for the situation. Statistical characteristics of sensor values and topological characteristics of generated graphs are learned for each situation. A neural network is designed to classify the current situation based on the extracted features from collected multiple sensor values. The proposed method is implemented and tested with UCI machine learning repository data.

차분진화 기반의 Support Vector Clustering (A Differential Evolution based Support Vector Clustering)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제17권5호
    • /
    • pp.679-683
    • /
    • 2007
  • Vapnik의 통계적 학습이론은 분류, 회귀, 그리고 군집화를 위하여 SVM(support vector machine), SVR(support vector regression), 그리고 SVC(support vector clustering)의 3가지 학습 알고리즘을 포함한다. 이들 중에서 SVC는 가우시안 커널함수에 기반한 지지벡터를 이용하여 비교적 우수한 군집화 결과를 제공하고 있다. 하지만 SVM, SVR과 마찬가지로 SVC도 커널모수와 정규화상수에 대한 최적결정이 요구된다 하지만 대부분의 분석작업에서 사용자의 주관적 경험에 의존하거나 격자탐색과 같이 많은 컴퓨팅 시간을 요구하는 전략에 의존하고 있다. 본 논문에서는 SVC에서 사용되는 커널모수와 정규화상수의 효율적인 결정을 위하여 차분진화를 이용한 DESVC(differential evolution based SVC)를 제안한다 UCI Machine Learning repository의 학습데이터와 시뮬레이션 데이터 집합들을 이용한 실험을 통하여 기존의 기계학습 알고리즘과의 성능평가를 수행한다.

퍼지 가중치 평균 분류기에서 통계 정보를 활용한 가중치 설정 기법의 제안 (Proposal of Weight Adjustment Methods Using Statistical Information in Fuzzy Weighted Mean Classifiers)

  • 우영운;허경용;김광백
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권7호
    • /
    • pp.9-15
    • /
    • 2009
  • 퍼지 가중치 평균 분류기는 가중치를 적절히 설정함으로써 뛰어난 분류 성능을 얻을 수 있다는 장점이 있다. 그러나 일반적으로 가중치는 인식 문제 분야의 특성이나 해당 전문가의 지식과 주관적 경험을 기반으로 설정되므로 설정된 가중치의 일관성과 객관성을 보장하기가 어려운 문제점을 갖고 있다. 따라서 이 논문에서는 퍼지 가중치 평균 분류기의 가중치를 설정하기 위한 객관적 기준을 제시하기 위하여 특정값들 간의 통계적 정보를 이용한 가중치 설정 기법들을 제안하였다. 제안한 기법들의 효과를 조사하기 위하여 UCI machine learning repository 사이트에서 제공되는 표준 데이터들 중의 하나인 Iris 데이터 세트를 이용하여 실험하였으며, 그 결과 우수한 성능을 확인 할 수 있었다.

데이터 시각화 기반의 UCI Sensor Data 분석 (UCI Sensor Data Analysis based on Data Visualization)

  • 장일식;최희조;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.21-24
    • /
    • 2020
  • 대용량의 데이터를 시각적 요소를 활용하여 눈으로 볼 수 있도록 하는 데이터 시각화에 대한 관심이 꾸준히 증가하고 있다. 데이터 시각화는 데이터의 전처리를 거쳐 차원 축소를 하여 데이터의 분포를 시각적으로 확인할 수 있다. 공개된 데이터 셋은 캐글(kaggle), 아마존 AWS 데이터셋(Amazon AWS datasets), UC 얼바인 머신러닝 저장소(UC irvine machine learning repository)등 다양하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 딥러닝을 이용하여 다양한 환경 및 조건에서의 학습을 통한 데이터분석 및 학습 결과가 좋을 경우와 그렇지 않을 경우의 마지막 레이어의 특징 벡터를 시각화하여 직관적인 결과를 확인 가능 하도록 하였다. 또한 다차원 입력 데이터를 시각화 함으로써 시각화 된 결과가 딥러닝의 학습결과와 연관이 있는지를 확인 한다.

  • PDF

Improvement of SOM using Stratification

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제9권1호
    • /
    • pp.36-41
    • /
    • 2009
  • Self organizing map(SOM) is one of the unsupervised methods based on the competitive learning. Many clustering works have been performed using SOM. It has offered the data visualization according to its result. The visualized result has been used for decision process of descriptive data mining as exploratory data analysis. In this paper we propose improvement of SOM using stratified sampling of statistics. The stratification leads to improve the performance of SOM. To verify improvement of our study, we make comparative experiments using the data sets form UCI machine learning repository and simulation data.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of Continuous-Valued Attributes considering Data Distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.391-396
    • /
    • 2003
  • 본 논문에서는 특정 매개변수(parameter)의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(continuous) 속성 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화 하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

주성분 분석과 나이브 베이지안 분류기를 이용한 퍼지 군집화 모형 (Fuzzy Clustering Model using Principal Components Analysis and Naive Bayesian Classifier)

  • 전성해
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.485-490
    • /
    • 2004
  • 자조의 표현에서 군집화는 주어진 데이터를 서로 유사한 개체들끼리 몇 개의 집단으로 묶는 작업을 수행한다. 군집화의 유사도 결정 측도는 맡은 연구들에서 매우 다양한 것들이 사용되었다. 하지만 군집화 결과의 성능 측정에 대한 객관적인 기준 설정이 어렵기 때문에 군집화 결과에 대한 해석은 매우 주관적이고, 애매한 경우가 많다. 퍼지 군집화는 이러한 주관적인 군집화 문제에 있어서 객관성 있는 군집 결정 방안을 제시하여 준다. 각 개체들이 특정 군집에 속하게 될 퍼지 멤버 함수값을 원소로 하는 유사도 행렬을 통하여 군집화를 수행한다. 본 논문에서는 차원 축소기법의 하나인 주성분 분석과 강력한 통계적 학습 이론인 베이지안 학습을 결합한 군집화 모형을 제안하여, 객관적인 퍼지 군집화를 수행하였다. 제안 알고리즘의 성능 평가를 위하여 UCI Machine Loaming Repository의 Iris와 Glass Identification 데이터를 이용한 실험 결과를 제시하였다.

정보이득 분할을 이용한 분류기법의 지배적 초월평면 생성기법 (A dominant hyperrectangle generation technique of classification using IG partitioning)

  • 이형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.149-156
    • /
    • 2014
  • 중첩형 일반화 사례 (NGE, Nested Generalized Exemplar) 기법은 거리 기반 분류를 최적 일치 규칙으로 사용하며, 노이즈에 대한 내구력을 증가시켜 주는 동시에 모델 크기를 감소시키는 장점이 있다. NGE 학습 중 생성된 교차(cross)나 중첩(overlap) 현상은 분류성능을 저해하는 요인으로 작용한다. 따라서 본 논문은 NGE 학습 중 생성된 교차나 중첩 현상이 발생한 초월 평면에대해 상호정보가 가장 큰 구간을 분리하여, 새로운 초월평면을 구성하게 하여, 분류성능 향상시키고 초월평면의 개수를 감소시키는 기법인 DHGen(Dominant Hyperrectangle Generation) 알고리즘을 제안하였다. 제안한 DHGen은 분류성능면에서 kNN과 유사하고 NGE이론으로 구현한 EACH보다 우수함을 UCI Machine Learning Repository에서 벤치마크데이터를 발췌한 실험자료로 입증하였다.