• 제목/요약/키워드: classifiers

검색결과 743건 처리시간 0.037초

Hyperparameter Tuning Based Machine Learning classifier for Breast Cancer Prediction

  • Md. Mijanur Rahman;Asikur Rahman Raju;Sumiea Akter Pinky;Swarnali Akter
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.196-202
    • /
    • 2024
  • Currently, the second most devastating form of cancer in people, particularly in women, is Breast Cancer (BC). In the healthcare industry, Machine Learning (ML) is commonly employed in fatal disease prediction. Due to breast cancer's favorable prognosis at an early stage, a model is created to utilize the Dataset on Wisconsin Diagnostic Breast Cancer (WDBC). Conversely, this model's overarching axiom is to compare the effectiveness of five well-known ML classifiers, including Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), K-Nearest Neighbor (KNN), and Naive Bayes (NB) with the conventional method. To counterbalance the effect with conventional methods, the overarching tactic we utilized was hyperparameter tuning utilizing the grid search method, which improved accuracy, secondary precision, third recall, and finally the F1 score. In this study hyperparameter tuning model, the rate of accuracy increased from 94.15% to 98.83% whereas the accuracy of the conventional method increased from 93.56% to 97.08%. According to this investigation, KNN outperformed all other classifiers in terms of accuracy, achieving a score of 98.83%. In conclusion, our study shows that KNN works well with the hyper-tuning method. These analyses show that this study prediction approach is useful in prognosticating women with breast cancer with a viable performance and more accurate findings when compared to the conventional approach.

A Comprehensive Approach for Tamil Handwritten Character Recognition with Feature Selection and Ensemble Learning

  • Manoj K;Iyapparaja M
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1540-1561
    • /
    • 2024
  • This research proposes a novel approach for Tamil Handwritten Character Recognition (THCR) that combines feature selection and ensemble learning techniques. The Tamil script is complex and highly variable, requiring a robust and accurate recognition system. Feature selection is used to reduce dimensionality while preserving discriminative features, improving classification performance and reducing computational complexity. Several feature selection methods are compared, and individual classifiers (support vector machines, neural networks, and decision trees) are evaluated through extensive experiments. Ensemble learning techniques such as bagging, and boosting are employed to leverage the strengths of multiple classifiers and enhance recognition accuracy. The proposed approach is evaluated on the HP Labs Dataset, achieving an impressive 95.56% accuracy using an ensemble learning framework based on support vector machines. The dataset consists of 82,928 samples with 247 distinct classes, contributed by 500 participants from Tamil Nadu. It includes 40,000 characters with 500 user variations. The results surpass or rival existing methods, demonstrating the effectiveness of the approach. The research also offers insights for developing advanced recognition systems for other complex scripts. Future investigations could explore the integration of deep learning techniques and the extension of the proposed approach to other Indic scripts and languages, advancing the field of handwritten character recognition.

유도 전동기의 고장 검출 및 분류를 위한 특징 벡터 추출과 분류기의 다양한 설정에 따른 분류 성능 비교 (Feature Vector Extraction and Classification Performance Comparison According to Various Settings of Classifiers for Fault Detection and Classification of Induction Motor)

  • 강명수;뉘엔 투 낙;김용민;김철홍;김종면
    • 한국음향학회지
    • /
    • 제30권8호
    • /
    • pp.446-460
    • /
    • 2011
  • 최근 항공 산업, 자동차 산업 등의 산업 현장에서 유도 전동기의 사용이 증대되고 있으며, 유도 전동기는 산업 현장에서 중요한 역할을 하고 있다. 따라서 유도 전동기의 고장으로 인한 피해를 최소화하기 위해 유도 전동기의 고장 검출 및 분류 시스템의 개발이 중요한 문제로 대두되고 있다. 이와 같은 이유로 본 논문에서는 유도 전동기의 고장을 조기에 검출하고 진단하기 위해 에너지 (short-time energy)와 특이치 분해와 이산 코사인 변환과 특이치 분해를 이용한 특징 벡터 추출 방법을 제안하였고, 이를 역 전파 신경 회로망과 다층 서포트 벡터 머신의 입력으로 이용하여 유도 전동기의 고장을 유형별로 분류하였다. 하지만 본 논문에서는 역 전파 신경 회로망과 다층 서포트 벡터 머신을 분류기로 사용함에 있어 역 전파 신경 회로망은 신경망을 구성하는 입력 뉴런 수, 은닉 뉴런 수, 학습 알고리즘에 의해 분류 성능이 달라지며, 다층 서포트 벡터 머신은 커널 함수로 사용한 가우시안 방사 기저 함수의 표준 편차 값에 따라 분류 성능이 달라지는 점을 고려하여 여러 가지 조건하에서의 실험을 통해 높은 분류 성능을 보이는 설정 방법을 제시하였다.

AdaBoost 알고리즘과 레이더 데이터를 이용한 채프에코 식별에 관한 연구 (A Study on Chaff Echo Detection using AdaBoost Algorithm and Radar Data)

  • 이한수;김종근;유정원;정영상;김성신
    • 한국지능시스템학회논문지
    • /
    • 제23권6호
    • /
    • pp.545-550
    • /
    • 2013
  • 패턴 인식 분야에 있어서 데이터 분류는 해당 데이터에서 유용한 정보를 추출하기 위해서 반드시 수행해야 하는 과정 중 하나이다. AdaBoost 알고리즘은 Boosting 알고리즘을 실제 데이터 분석에 이용할 수 있도록 개량한 것으로, Random guessing이나 Random forest와 같이 정확한 결과를 도출할 확률이 50%보다 조금 높은 약한 분류기와 가중치 값의 조합을 통해 높은 분류 성능을 가지는 강한 분류기를 생성하는 방법을 뜻한다. 본 논문에서는 AdaBoost 알고리즘을 이용하여 비강수에코 중 강수에코와 그 특성이 유사하여 기상 예보를 수행하는 데 방해가 되는 채프에코를 식별하는 알고리즘의 구현에 대한 연구를 수행하였다. 기상 현상 관측을 위해 사용하는 레이더 데이터를 정적 클러스터링과 동적 클러스터링 과정을 통해서 유사도를 기반으로 한 클러스터를 생성한 후, 이를 예보관의 채프에코 판별 결과에 따라 채프에코와 비채프에코로 나누어 학습 데이터를 구성한 후 AdaBoost 알고리즘에 적용하여 분류기를 구현하였다. 제안한 AdaBoost 알고리즘의 성능을 검증하기 위하여 실제 채프에코가 발생한 레이더 데이터를 적용하였으며, 실험 결과를 통해서 제안한 알고리즘이 효과적으로 채프에코를 분류할 수 있음을 확인하였다.

유방 종양 세포 조직 영상의 분류 (Classification of Breast Tumor Cell Tissue Section Images)

  • 황해길;최현주;윤혜경;남상희;최흥국
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.22-30
    • /
    • 2001
  • 본 논문은 유방질환 중에서 유관(duct )에 발생하는 유방종양을 Benign, DCIS(ductal carcinoma in situ) NOS (invasive ductal carcinoma)로 분류하기 위해 3가지 분류기 (classifier) 를 생성한 후, 비교 분석하였다. 분류기 생성에서 가장 중요한 단계인 특징 추출 단계에서 세포핵의 기하학적 특징을 형태학적 특징을 추출하여 분류기를 생성하고 염색질 패턴의 내부적 변화를 나타내는 질감 특징을 추출하여 2가지 배율(100/400배)에서 2개의 분류기를 생성하였다. 400배 배율의 유방질환 영상에서 세포핵을 추출하여 핵의 형태학적 특징값인 핵의 면적, 둘레. 가로, 세로(장. 단축) 의 길이, 원형성의 비율을 구한 후 이 특징값들을 조합하여 판별분석에 의해 분류기를 생생하고, 분류 정확도를 검증하였다. 100배 배율과 400배의 배율의 유방질환 영상에서 1, 2, 3, 4 단계(level)의 wavelet 변환를 적용한 후, 분할된 서브밴드에서 GLCM(Gray Level Co-occurrence Matrix)을 이용하여 질감 특징(entropy Energy, Contrast, Homogeneity)를 추출하고, 이 특징값들을 조합하여 판변 분석에 의해 분류기를 생성한 후 분류 정확도를 검증하였다. 이 세 분류기를 비교 분석 하였을때 현민경 100배 배율의 영상을 3단계 wavelet 변환을 적용하고 질감 특징을 추출하여 생성한 분류기가 다른 두 분류기보다 유방 질환 Benign, DCIS; NOS를 분류하는데 더 나은 결과를 보였다.

  • PDF

순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙의 생성 (Generating Rank-Comparison Decision Rules with Variable Number of Genes for Cancer Classification)

  • 윤영미;변상재;박상현
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.767-776
    • /
    • 2008
  • 마이크로어레이 기술은 최근 실험적 분자생물학 분야에서 활발히 사용되고 있는 기술이다. 마이크로어레이 데이터는 한 번의 실험으로 수 만개의 유전자에 대한 발현값을 얻을 수 있으므로, 여러 질병의 발현형질을 연구하는데 매우 유용하게 사용된다. 마이크로어레이 데이터의 문제점은 참여하는 유전자의 수에 비해 참여하는 샘플(생물조직샘플)의 수가 매우 적고, 분류분석 기법을 사용하여 얻어진 분류자의 해석이 어렵다는 점이다. 본 연구에서는 위의 문제점을 해결하고자, 샘플 내 순위를 이용하여 동일한 생물학적 목적으로 수행된 공개 마이크로어레이 데이터를 통합하고, 순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙들로 이루어진 분류자를 제안한다. 본 분류자는 k개의 규칙으로 이루어진 앙상블 방법을 기반으로 하며, 하나의 규칙은 최대N개의 유전자, 관련유전자간의 순위비교 관계식, 판별클래스로 이루어져 있다. 하나의 규칙에 참여하는 유전자의 수를 다양하게 함으로써 좀더 신뢰성 높은 분류자를 생성할 수 있다. 또한 본 분류자는 생물학적 해석이용이하며, 분류자를 구성하는 유전자를 명확히 식별할 수 있고, 총 개수가 많지 않으므로 임상환경에서의 사용가능성도 생각해 볼 수 있다.

소량 및 불균형 능동소나 데이터세트에 대한 딥러닝 기반 표적식별기의 종합적인 분석 (Comprehensive analysis of deep learning-based target classifiers in small and imbalanced active sonar datasets)

  • 김근환;황용상;신성진;김주호;황수복;추영민
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.329-344
    • /
    • 2023
  • 본 논문에서는 소량 및 불균형 능동소나 데이터세트에 적용된 다양한 딥러닝 기반 표적식별기의 일반화 성능을 종합적으로 분석하였다. 서로 다른 시간과 해역에서 수집된 능동소나 실험 데이터를 이용하여 두 가지 능동소나 데이터세트를 생성하였다. 데이터세트의 각 샘플은 탐지 처리 이후 탐지된 오디오 신호로부터 추출된 시간-주파수 영역 이미지이다. 표적식별기의 신경망 모델은 다양한 구조를 가지는 22개의 Convolutional Neural Networks(CNN) 모델을 사용하였다. 실험에서 두 가지 데이터세트는 학습/검증 데이터세트와 테스트 데이터세트로 번갈아 가며 사용되었으며, 표적식별기 출력의 변동성을 계산하기 위해 학습/검증/테스트를 10번 반복하고 표적식별 성능을 분석하였다. 이때 학습을 위한 초매개변수는 베이지안 최적화를 이용하여 최적화하였다. 실험 결과 본 논문에서 설계한 얕은 층을 가지는 CNN 모델이 대부분의 깊은 층을 가지는 CNN 모델보다 견실하면서 우수한 일반화 성능을 가지는 것을 확인하였다. 본 논문은 향후 딥러닝 기반 능동소나 표적식별 연구에 대한 방향성을 설정할 때 유용하게 사용될 수 있다.

합성곱 신경망을 이용한 주가방향 예측: 상관관계 속성선택 방법을 중심으로 (Stock Price Direction Prediction Using Convolutional Neural Network: Emphasis on Correlation Feature Selection)

  • 어균선;이건창
    • 경영정보학연구
    • /
    • 제22권4호
    • /
    • pp.21-39
    • /
    • 2020
  • 딥러닝(Deep learning) 기법은 패턴분석, 이미지분류 등 다양한 분야에서 높은 성과를 나타내고 있다. 특히, 주식시장 분석문제는 머신러닝 연구분야에서도 어려운 분야이므로 딥러닝이 많이 활용되는 영역이다. 본 연구에서는 패턴분석과 분류능력이 높은 딥러닝의 일종인 합성곱신경망(Convolutional Neural Network) 모델을 활용하여 주가방향 예측방법을 제안한다. 추가적으로 합성곱신경망 모델을 효율적으로 학습시키기 위한 속성선택(Feature Selection, FS)방법이 적용된다. 합성곱신경망 모델의 성과는 머신러닝 단일 분류기와 앙상블 분류기를 벤치마킹하여 객관적으로 검증된다. 본 연구에서 벤치마킹한 분류기는 로지스틱 회귀분석(Logistic Regression), 의사결정나무(Decision Tree), 인공신경망(Neural Network), 서포트 벡터머신(Support Vector Machine), 아다부스트(Adaboost), 배깅(Bagging), 랜덤포레스트(Random Forest)이다. 실증분석 결과, 속성선택을 적용한 합성곱신경망이 다른 벤치마킹 분류기보다 분류 성능이 상대적으로 높게 나타났다. 이러한 결과는 합성곱신경망 모델과 속성선택방법을 적용한 예측방법이 기업의 재무자료에 내포된 가치를 보다 정교하게 분석할 수 있는 가능성이 있음을 실증적으로 확인할 수 있었다.

이중 수사(數詞) 사용에서 나타나는 한국어학습자의 오류 유형 분석 (Analysis of the error types made by Korean language learners in the use of dual numerals)

  • 도주원
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제38권2호
    • /
    • pp.145-165
    • /
    • 2024
  • 본 연구의 목적은 이중 수사 사용에서 나타나는 한국어학습자의 오류 유형을 분석하여 효과적인 명수법 지도 방안 마련을 위한 기초 자료를 제공하는 것이다. 이를 위해 언어적·문화적 배경이 다양하고 국어, 수학 학업성취도가 다른 다문화 배경의 한국어학습자를 대상으로 이중 수사를 사용하는 명수법에서 나타나는 오류 유형을 분석하는 사례연구를 하였다. 한국어학습자에게 나타난 오류를 범주화한 오류 유형을 분석틀로 활용하였다. 연구 결과로부터 얻은 결론은 다음과 같다. 첫째, 학생들이 오류가 많이 나타난 고유어 수사 사용과 관련된 명수법에 익숙해질 수 있도록 자주 사용할 기회를 제공할 필요가 있다. 둘째, 국어 학업성취도 하 수준의 한국어학습자에게 한자어 수사를 사용한 명수법 지도 시 한자어 수사의 승법적 기수법의 체계에 유의하여 지도할 필요가 있다. 셋째, 외래어 분류사를 한국어로 정확하게 읽고 분류사 '시'와 '시간'을 구분하여 읽도록 지도할 필요가 있으며, 고유어/한자어 수사를 한자어 분류사와 함께 연이어 적절하게 사용할 수 있도록 지도할 필요가 있다. 본 연구의 결과는 언어적, 문화적 배경이 다양한 한국어학습자의 이중 수사를 사용하는 명수법의 효과적인 지도 방안 마련에 기여할 수 있을 것이다.

Logistic Regression Classification by Principal Component Selection

  • Kim, Kiho;Lee, Seokho
    • Communications for Statistical Applications and Methods
    • /
    • 제21권1호
    • /
    • pp.61-68
    • /
    • 2014
  • We propose binary classification methods by modifying logistic regression classification. We use variable selection procedures instead of original variables to select the principal components. We describe the resulting classifiers and discuss their properties. The performance of our proposals are illustrated numerically and compared with other existing classification methods using synthetic and real datasets.