• 제목/요약/키워드: Classifier Clustering

검색결과 137건 처리시간 0.023초

분산커널 기반의 퍼지 c-평균을 이용한 음악 데이터의 장르 분류 (Classification of Music Data using Fuzzy c-Means with Divergence Kernel)

  • 박동철
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.1-7
    • /
    • 2009
  • 본 논문은 효율적인 음악 데이터의 분류를 위한 방법으로 분산커널 기반의 퍼지 c-평균을 이용한 분류기 모델을 제안한다. 분산 커널 기반의 퍼지 c-평균은 주어진 오디오 데이터에서 추출된 특징벡터의 평균과 공분산 정보를 동시에 이용하여 기존의 평균값만을 사용하는 방식에 비해 성능을 월등히 향상시킬 수 있는 장점이 있다. 사용된 방식은 확률적 분포로 주어지는 데이터 사이의 거리를 분산거리척도로 측정하고, 복잡한 분류 경계를 단순화 시키는데 효율적인 커널 개념을 사용함으로서 분류의 정확도를 극대화 시킬 수 있는 장점이 있다. 제안하는 분류기의 성능을 평가하기 위하여 고전음악, 컨트리음악, 힙합, 재즈의 4개의 장르 음악데이터를 총 1200개 수집하여 실험을 진행하였다. 실험의 결과 제안된 분산커널 기반의 퍼지 c-평균을 이용하는 분류기는 기존의 방식과 비교하여 분류정확도에서 평균적으로 17.73%-21.84%의 성능향상을 보여준다.

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

SVM의 다중결정템플릿을 이용한 지문분류 (Fingerprint Classification using Multiple Decision Templates with SVM)

  • 민준기;홍진혁;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권11호
    • /
    • pp.1136-1146
    • /
    • 2005
  • 지문분류는 대규모 자동지문식별시스템에서 지문을 카테고리별로 나누어 매칭시간을 줄이는데 유용하다. 지문을 5가지 클래스로 분류하는 헨리시스템을 기반으로 신경망이나 SYM(Support Vector Machines) 등과 같은 다양한 패턴분류 기법들이 지문분류에 널리 사용되고 있다. 특히 최근에는 높은 분류 성능을 보이는 SVM 분류기를 이용한 연구가 활발하다. 이진분류기인 SVM을 지문분류문제에 적용하기 위해서 본 논문에서는 새로운 분류기 결합모델인 다중결정템플릿(Multiple Decision Templates, MuDTs)을 제안한다. 이 방법은 클래스 구분이 모호한 지문영상들의 분류에서 단일 결합모델들의 한계를 극복하기 위해, 하나의 지문클래스로부터 서로 다른 특성을 갖는 클러스터들을 추출하여 각 클러스터에 적합한 결합모델을 생성한다. NIST Database4 데이타로부터 추출한 핑거코드에 대해 실험한 결과, 5클래스와 4클래스 분류문제에 대하여 각각 $90.4\%$$94.9\%$의 분류성능(거부율 $1.8\%$)을 획득하였다.

부분방전 패턴인식을 위해 EMC센서를 이용한 최적화된 RBFNNs 분류기 설계 (Design of Optimized Radial Basis Function Neural Networks Classifier Using EMC Sensor for Partial Discharge Pattern Recognition)

  • 정병진;이승철;오성권
    • 전기학회논문지
    • /
    • 제66권9호
    • /
    • pp.1392-1401
    • /
    • 2017
  • In this study, the design methodology of pattern classification is introduced for avoiding faults through partial discharge occurring in the power facilities and local sites. In order to classify some partial discharge types according to the characteristics of each feature, the model is constructed by using the Radial Basis Function Neural Networks(RBFNNs) and Particle Swarm Optimization(PSO). In the input layer of the RBFNNs, the feature vector is searched and the dimension is reduced through Principal Component Analysis(PCA) and PSO. In the hidden layer, the fuzzy coefficients of the fuzzy clustering method(FCM) are tuned using PSO. Raw datasets for partial discharge are obtained through the Motor Insulation Monitoring System(MIMS) instrument using an Epoxy Mica Coupling(EMC) sensor. The preprocessed datasets for partial discharge are acquired through the Phase Resolved Partial Discharge Analysis(PRPDA) preprocessing algorithm to obtain partial discharge types such as void, corona, surface, and slot discharges. Also, when the amplitude size is considered as two types of both the maximum value and the average value in the process for extracting the preprocessed datasets, two different kinds of feature datasets are produced. In this study, the classification ratio between the proposed RBFNNs model and other classifiers is shown by using the two different kinds of feature datasets, and also we demonstrate the proposed model shows superiority from the viewpoint of classification performance.

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.

퍼지 성능 측정자를 이용한 적응 데이터 마이닝 모델 (Adaptive Data Mining Model using Fuzzy Performance Measures)

  • 이현숙
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.541-546
    • /
    • 2006
  • 데이터 마이닝은 방대한 양의 데이터를 다루는 응용영역에서 학습과 함께 연구되어 실세계의 문제를 해결할 수 있는 구체적인 방법을 제시해 주고 있다. 데이터 마이닝을 위한 보편적인 방법으로 사용되어 온 클러스터 분석 방법은 데이터의 양이 많아질수록, 실세계에서 직접 얻은 데이터일수록 경계가 불분명하고 처리과정에서 많은 오차가 발생하게 되어 직접 적용하고자할 때 고려해야할 점이 많다. 이를 위하여 퍼지 개념이 도입된 퍼지 클러스터링 방법론은 클러스터 타당성문제와 함께 널리 연구되어왔다. 본 논문에서는 클러스터링의 결과가 만들어 내는 오류 값을 최소화하는 방향으로 학습하는 비교사 학습신경망에 의하여 클러스터링이 이루어지고 이를 퍼지 성능 측정자에 의하여 평가하면서 최적의 클러스터 수를 찾아가는 적응형 데이터 마이닝 모델을 제안하고자 한다 또한 뉴스그룹의 텍스트 데이터를 처리하여 문서분류에 활용할 수 있음을 보임으로 제안된 모델의 타당성을 확인하고자 한다.

샘플 군집화를 이용한 개선된 아다부스트 알고리즘 (An Improved AdaBoost Algorithm by Clustering Samples)

  • 백열민;김중근;김회율
    • 방송공학회논문지
    • /
    • 제18권4호
    • /
    • pp.643-646
    • /
    • 2013
  • 본 논문에서는 아다부스트의 과적합 문제를 해결하기 위해 샘플 군집화를 이용한 개선된 아다부스트 알고리즘을 제안한다. 아다부스트는 다양한 객체 검출 방법에서 좋은 성능을 보이는 방법으로 알려져 있지만 훈련 샘플에 노이즈가 존재하는 경우 과적합 현상이 발생하는 문제가 있다. 이를 해결하기 위해 제안하는 방법은 우선 훈련 샘플의 긍정 샘플을 k-평균 군집화 알고리즘을 이용하여 K개의 군집으로 나눈다. 이후 아다부스트의 약분류기 훈련 시 K개의 군집 중 훈련 오차를 최소화하는 하나의 군집만을 선택하여 사용한다. 이로써, 제안하는 방법은 매 회 반복되는 약분류기의 훈련 시 훈련 샘플들이 과분할 되는 것과 노이즈 샘플이 훈련에 사용되는 것을 방지함으로써 기존 아다부스트의 과적합 현상을 효과적으로 줄여준다. 실험 결과, 제안하는 방법은 다양한 실제 데이터셋에서 기존의 부스팅 기반 방법들에 비해 더 나은 분류 성능 및 일반화 성능을 보여주었다.

A Hybrid Mod K-Means Clustering with Mod SVM Algorithm to Enhance the Cancer Prediction

  • Kumar, Rethina;Ganapathy, Gopinath;Kang, Jeong-Jin
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권2호
    • /
    • pp.231-243
    • /
    • 2021
  • In Recent years the way we analyze the breast cancer has changed dramatically. Breast cancer is the most common and complex disease diagnosed among women. There are several subtypes of breast cancer and many options are there for the treatment. The most important is to educate the patients. As the research continues to expand, the understanding of the disease and its current treatments types, the researchers are constantly being updated with new researching techniques. Breast cancer survival rates have been increased with the use of new advanced treatments, largely due to the factors such as earlier detection, a new personalized approach to treatment and a better understanding of the disease. Many machine learning classification models have been adopted and modified to diagnose the breast cancer disease. In order to enhance the performance of classification model, our research proposes a model using A Hybrid Modified K-Means Clustering with Modified SVM (Support Vector Machine) Machine learning algorithm to create a new method which can highly improve the performance and prediction. The proposed Machine Learning model is to improve the performance of machine learning classifier. The Proposed Model rectifies the irregularity in the dataset and they can create a new high quality dataset with high accuracy performance and prediction. The recognized datasets Wisconsin Diagnostic Breast Cancer (WDBC) Dataset have been used to perform our research. Using the Wisconsin Diagnostic Breast Cancer (WDBC) Dataset, We have created our Model that can help to diagnose the patients and predict the probability of the breast cancer. A few machine learning classifiers will be explored in this research and compared with our Proposed Model "A Hybrid Modified K-Means with Modified SVM Machine Learning Algorithm to Enhance the Cancer Prediction" to implement and evaluated. Our research results show that our Proposed Model has a significant performance compared to other previous research and with high accuracy level of 99% which will enhance the Cancer Prediction.

(2D)2PCA 알고리즘을 이용한 pRBFNNs 패턴분류기 기반 얼굴인식 시스템 설계 (Design of pRBFNNs Pattern Classifier-based Face Recognition System Using 2-Directional 2-Dimensional PCA Algorithm)

  • 오성권;진용탁
    • 전자공학회논문지
    • /
    • 제51권1호
    • /
    • pp.195-201
    • /
    • 2014
  • 본 연구에서는 $(2D)^2PCA$ 알고리즘을 이용한 pRBFNNs 패턴분류기 기반 얼굴인식 시스템을 설계하였다. 기존의 1차원 PCA는 행과 열의 곱으로 표현한 이미지의 차원을 축소한다. 하지만 $(2D)^2PCA$(2-Directional 2-Dimensional Principal Components Analysis)는 이미지의 행과 열에서 각각 차원축소를 수행한다. 그 다음 제안된 지능형 패턴분류기로 축소된 이미지를 사용하여 성능을 평가한다. (pRBFNNs)로 성능 평가를 한다. 제안된 다항식 기반 RBFNNs은 조건부, 결론부, 추론부 세가지의 기능적 모듈로 구성되어 있고 조건는 퍼지 클러스터링을 사용하여 입력 공간을 분할하고, 결론부는 RBFNNs의 연결가중치로 일차 선형식으로 표현한다. 또한 차분진화 알고리즘을 이용하여 제안된 분류기의 파라미터, 즉 입력의 수, 퍼지 클러스터링의 퍼지화 계수를 최적화 한다. 얼굴인식에 많이 사용되는 Yale과 AT&T를 사용하여 인식률을 평가하였다. 실험 평가를 위해 IC&CI 연구실 데이터를 추가하여 실험하였다.

Binary Harmony Search 알고리즘을 이용한 Unsupervised Nonlinear Classifier 구현 (Implementation of Unsupervised Nonlinear Classifier with Binary Harmony Search Algorithm)

  • 이태주;박승민;고광은;성원기;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.354-359
    • /
    • 2013
  • 본 논문을 통해서 우리는 최적화 알고리즘인 binary harmony search (BHS) 알고리즘을 이용하여 unsupervised nonlinear classifier를 구현하는 방안을 제시하였다. 패턴인식을 위한 기계학습이나 뇌파 신호의 분석 과정과 같이 벡터로 표현되는 특징들을 분류하는데 있어 다양한 알고리즘들이 제시되었다. 교사 학습기반의 분류 방식으로는 support vector machine과 같은 기법이 사용되어왔고, 비교사 학습 방법을 통한 분류 기법으로는 fuzzy c-mean (FCM)과 같은 알고리즘들이 사용되어 왔다. 그러나 기존에 사용해 왔던 분류 방법들은 비선형 데이터 분류에 적용하기 힘들거나 교사 학습을 적용하기 위해서 사전정보를 필요로 하는 문제점이 있다. 본 논문에서는 경험적 접근을 통해 공간상에 분포된 벡터 사이의 기하학적 거리를 최소로 만드는 벡터 집합을 선택하고 이를 하나의 클래스로 간주하는 방법을 적용한 분류법을 제시하였다. 비교 대상으로 FCM과 artificial neural network (ANN) 기반의 self-organizing map (SOM)을 제시하였다. 시뮬레이션에는 KEEL machine learing dataset을 사용하였고 그 결과, 제안된 방식이 기존 알고리즘에 비해 더 나은 우수성을 지니고 있음을 확인하였다.