• 제목/요약/키워드: cost-sensitive learning

검색결과 26건 처리시간 0.022초

불균형데이터의 비용민감학습을 통한 국방분야 이미지 분류 성능 향상에 관한 연구 (A Study on the Improvement of Image Classification Performance in the Defense Field through Cost-Sensitive Learning of Imbalanced Data)

  • 정미애;마정목
    • 한국군사과학기술학회지
    • /
    • 제24권3호
    • /
    • pp.281-292
    • /
    • 2021
  • With the development of deep learning technology, researchers and technicians keep attempting to apply deep learning in various industrial and academic fields, including the defense. Most of these attempts assume that the data are balanced. In reality, since lots of the data are imbalanced, the classifier is not properly built and the model's performance can be low. Therefore, this study proposes cost-sensitive learning as a solution to the imbalance data problem of image classification in the defense field. In the proposed model, cost-sensitive learning is a method of giving a high weight on the cost function of a minority class. The results of cost-sensitive based model shows the test F1-score is higher when cost-sensitive learning is applied than general learning's through 160 experiments using submarine/non-submarine dataset and warship/non-warship dataset. Furthermore, statistical tests are conducted and the results are shown significantly.

신용카드 사기 검출을 위한 비용 기반 학습에 관한 연구 (Cost-sensitive Learning for Credit Card Fraud Detection)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.545-551
    • /
    • 2005
  • 사기 검출의 주목적은 사기 거래로 인해 발생하는 손실을 최소화하는 것이다. 하지만, 사기 검출 문제의 특이한 속성, 즉 불균형하고 중첩이 심한 클래스 분포와 비균일한 오분류 비용으로 인해, 실제로 희망하는 거절율 동작 영역에서의 분류비용 측면의 최적 분류기를 생성하는 것이 용이하지 않다. 본 논문에서는, 특정 동작 영역에서의 분류기의 분류 비용을 정의하고, 진화 탐색을 이용하여 이를 직접적으로 최적화함으로써, 실제 신용카드 사기 검출에 적합한 분류기를 학습할 수 있는 비용 기반 학습 방법을 제시한다. 신용카드 거래 데이터를 사용한 실험을 통해, 제시한 방법이 타 학습 방법에 비해 비용에 민감한 분류기를 학습할 수 있는 효과적인 방법임을 보인다.

심혈관질환 위험 예측을 위한 비용민감 학습 모델 (Cost-Sensitive Learning for Cardio-Cerebrovascular Disease Risk Prediction)

  • 이유나;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.161-168
    • /
    • 2021
  • 본 연구에서는 기계 학습을 사용하여 심혈관 질환 예측 모델을 제안한다. 먼저 두 집단간에 다양한 차이를 다차원분석하고 그 결과를 시각화한다. 특히, 질환과 같이 정상집단과 환자집단 간에 높은 클래스 불균형이 존재하는 경우에 대하여 민감도를 향상시킬 수 있는 비용 민감 학습을 사용하는 예측 모델을 제안한다. 본 연구에서는 대표적인 머신러닝 기술인 CART와 XGBoost를 사용하여 예측모델을 개발하고, 심혈관 질환 환자 데이터를 대상으로 예측하고 성능을 비교한다. 연구결과에 따르면 CART가 XGBoost 보다 더 높은 정확도와 특이도를 보였으며, 정확도는 약 70%~74%로 나타났다.

ROC and Cost Graphs for General Cost Matrix Where Correct Classifications Incur Non-zero Costs

  • Kim, Ji-Hyun
    • Communications for Statistical Applications and Methods
    • /
    • 제11권1호
    • /
    • pp.21-30
    • /
    • 2004
  • Often the accuracy is not adequate as a performance measure of classifiers when costs are different for different prediction errors. ROC and cost graphs can be used in such case to compare and identify cost-sensitive classifiers. We extend ROC and cost graphs so that they can be used when more general cost matrix is given, where not only misclassifications but correct classifications also incur penalties.

A Cost Sensitive Part-of-Speech Tagging: Differentiating Serious Errors from Minor Errors

  • Son, Jeong-Woo;Noh, Tae-Gil;Park, Seong-Bae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권1호
    • /
    • pp.6-14
    • /
    • 2012
  • All types of part-of-speech (POS) tagging errors have been equally treated by existing taggers. However, the errors are not equally important, since some errors affect the performance of subsequent natural language processing seriously while others do not. This paper aims to minimize these serious errors while retaining the overall performance of POS tagging. Two gradient loss functions are proposed to reflect the different types of errors. They are designed to assign a larger cost for serious errors and a smaller cost for minor errors. Through a series of experiments, it is shown that the classifier trained with the proposed loss functions not only reduces serious errors but also achieves slightly higher accuracy than ordinary classifiers.

특징점 선택방법과 SVM 학습법을 이용한 당뇨병 데이터에서의 당뇨병성 신장합병증의 예측 (Prediction of Diabetic Nephropathy from Diabetes Dataset Using Feature Selection Methods and SVM Learning)

  • 조백환;이종실;지영준;김광원;김인영;김선일
    • 대한의용생체공학회:의공학회지
    • /
    • 제28권3호
    • /
    • pp.355-362
    • /
    • 2007
  • Diabetes mellitus can cause devastating complications, which often result in disability and death, and diabetic nephropathy is a leading cause of death in people with diabetes. In this study, we tried to predict the onset of diabetic nephropathy from an irregular and unbalanced diabetic dataset. We collected clinical data from 292 patients with type 2 diabetes and performed preprocessing to extract 184 features to resolve the irregularity of the dataset. We compared several feature selection methods, such as ReliefF and sensitivity analysis, to remove redundant features and improve the classification performance. We also compared learning methods with support vector machine, such as equal cost learning and cost-sensitive learning to tackle the unbalanced problem in the dataset. The best classifier with the 39 selected features gave 0.969 of the area under the curve by receiver operation characteristics analysis, which represents that our method can predict diabetic nephropathy with high generalization performance from an irregular and unbalanced dataset, and physicians can benefit from it for predicting diabetic nephropathy.

Application of cost-sensitive LSTM in water level prediction for nuclear reactor pressurizer

  • Zhang, Jin;Wang, Xiaolong;Zhao, Cheng;Bai, Wei;Shen, Jun;Li, Yang;Pan, Zhisong;Duan, Yexin
    • Nuclear Engineering and Technology
    • /
    • 제52권7호
    • /
    • pp.1429-1435
    • /
    • 2020
  • Applying an accurate parametric prediction model to identify abnormal or false pressurizer water levels (PWLs) is critical to the safe operation of marine pressurized water reactors (PWRs). Recently, deep-learning-based models have proved to be a powerful feature extractor to perform high-accuracy prediction. However, the effectiveness of models still suffers from two issues in PWL prediction: the correlations shifting over time between PWL and other feature parameters, and the example imbalance between fluctuation examples (minority) and stable examples (majority). To address these problems, we propose a cost-sensitive mechanism to facilitate the model to learn the feature representation of later examples and fluctuation examples. By weighting the standard mean square error loss with a cost-sensitive factor, we develop a Cost-Sensitive Long Short-Term Memory (CSLSTM) model to predict the PWL of PWRs. The overall performance of the CSLSTM is assessed by a variety of evaluation metrics with the experimental data collected from a marine PWR simulator. The comparisons with the Long Short-Term Memory (LSTM) model and the Support Vector Regression (SVR) model demonstrate the effectiveness of the CSLSTM.

Classification of Human Papillomavirus (HPV) Risk Type via Text Mining

  • Park, Seong-Bae;Hwang, Sohyun;Zhang, Byoung-Tak
    • Genomics & Informatics
    • /
    • 제1권2호
    • /
    • pp.80-86
    • /
    • 2003
  • Human Papillomavirus (HPV) infection is known as the main factor for cervical cancer which is a leading cause of cancer deaths in women worldwide. Because there are more than 100 types in HPV, it is critical to discriminate the HPVs related with cervical cancer from those not related with it. In this paper, the risk type of HPVs using their textual explanation. The important issue in this problem is to distinguish false negatives from false positives. That is, we must find high-risk HPVs as many as possible though we may miss some low-risk HPVs. For this purpose, the AdaCost, a cost-sensitive learner is adopted to consider different costs between training examples. The experimental results on the HPV sequence database show that the consideration of costs gives higher performance. The improvement in F-score is higher than that of the accuracy, which implies that the number of high-risk HPVs found is increased.

Secure Training Support Vector Machine with Partial Sensitive Part

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.1-9
    • /
    • 2021
  • 본 연구에서는 민감 정보가 포함된 경우의 서포트 벡터 머신 (SVM) 학습 알고리즘을 제안한다. 기계 학습 모형들이 실세계의 자동화된 의사 결정을 가능하게 하였지만 규제들은 프라이버시 보호를 위해서 민감 정보들의 활용을 제한하고 있다. 특히 인종, 성별, 장애 여부와 같은 법적으로 보호되는 정보들의 프라이버시 보호는 필수이다. 본 연구에서는 완전 동형암호를 활용하여 부분적인 민감 정보가 포함된 경우에 최소 제곱 SVM (LSSVM) 모형을 효율적으로 학습할 수 있는 방법을 제안한다. 본 프레임워크에서는 데이터 소유주가 민감하지 않은 정보와 민감한 정보 모두를 가지고 있고, 이를 기계학습 서비스 제공자에게 제공할 때에 민감 정보만 암호화해서 제공하는 것을 가정한다. 결과적으로 데이터 소유자는 민감 정보를 노출시키지 않으면서도 암호화된 상태로 모형의 학습 정보를 얻을 수 있다. 모형을 실제 활용할 경우에는 모든 정보를 암호화하여 안전하게 예측 결과를 제공할 수 있도록 한다. 실제 데이터에 대한 실험을 통해 본 알고리즘이 동형암호로 구현될 경우에 원래의 LSSVM 모형과 비슷한 성능을 가질 수 있음을 확인해 볼 수 있었다. 또한, 개선된 효율적인 알고리즘에 대한 실험은 적은 성능 저하로 큰 연산 효율성을 달성할 가능성을 입증하였다.

기계학습을 이용한 수출 컨테이너의 무게그룹 분류 (Learning a Classifier for Weight Grouping of Export Containers)

  • 강재호;강병호;류광렬;김갑환
    • 지능정보연구
    • /
    • 제11권2호
    • /
    • pp.59-79
    • /
    • 2005
  • 컨테이너 터미널에서는 장치장(yard)으로 반입되는 수출 컨테이너의 무게를 몇 단계 그룹으로 나누고 각 무게그룹 별로 모아서 장치한다. 이는 수출 컨테이너를 선박에 싣는 적하작업 시 선박의 안정성을 위하여 무거운 무게그룹의 컨테이너들을 장치장에서 먼저 반출하여 선박의 바닥 쪽에 놓기 위함이다. 하지만 반입되는 컨테이너의 무게 그룹을 결정할 때 사용하는 운송사로부터 받은 무게정보는 부정확한 경우가 많아 하나의 스택(stack)에 서로 다른 무게그룹에 속하는 컨테이너들이 섞여서 쌓이게 된다. 이로 인하여 무거운 무게그룹의 컨테이너를 반출할 때 해당 컨테이너의 상단에 놓여진 보다 가벼운 무게그룹의 컨테이너들을 임시로 옮겨야 하는 재취급(rehandling, reshuffling)이 발생하게 된다. 적하작업 시 장치장에서 재취급이 빈번히 발생하면 작업이 지연되므로 터미널 생산성 향상을 위해서는 재취급 발생을 가급적 줄여야 한다. 본 논문에서는 기계학습 기법을 적용하여 반입 컨테이너의 무게그룹을 보다 정확히 추정하는 방안을 제안한다. 또한 탐색을 통하여 분류기 생성에 관여하는 비용행렬(cost matrix)을 조정함으로써 재취급 발생을 줄일 수 있는 분류기(classifier)를 생성하는 방안을 함께 소개한다. 실험 결과 본 논문에서 제안하는 방안 적용 시 재취급 발생을 5$\sim$7% 정도 줄일 수 있음을 예상할 수 있었다.

  • PDF