• 제목/요약/키워드: 불균형비율

Search Result 179, Processing Time 0.027 seconds

불균형일원변량모형에서 분산성분비율의 추정

  • 이장택
    • Communications for Statistical Applications and Methods
    • /
    • v.4 no.3
    • /
    • pp.611-616
    • /
    • 1997
  • 불균형일원변량모형에서 분산성분비율의 점추정에 관한 문제가 고려되어진다. 분산성분비율에 대한 새로운 추정량이 제안되며, 분산성분비율에 대한 여러가지 점추정량과 제안된 추정량을 평균자승오차(MSE)의 관점에서 추정량들의 효율성을 모의실험을 통하여 살펴본다. 결론적으로 제안된 추정량은 수준의 수가 크고 불균형정도가 매우 심한 경우를 제외하고 다른 추정량들보다 훨씬 MSE 효율성이 높아짐을 알 수 있다.

  • PDF

Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems (클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석)

  • Hwang, Doo-Sung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.6
    • /
    • pp.179-186
    • /
    • 2008
  • In this paper we analyse the effects of Bayesian algorithm in teaming class imbalance problems and compare the performance evaluation methods. The teaming performance of the Bayesian algorithm is evaluated over the class imbalance problems generated by priori data distribution, imbalance data rate and discrimination complexity. The experimental results are calculated by the AUC(Area Under the Curve) values of both ROC(Receiver Operator Characteristic) and PR(Precision-Recall) evaluation measures and compared according to imbalance data rate and discrimination complexity. In comparison and analysis, the Bayesian algorithm suffers from the imbalance rate, as the same result in the reported researches, and the data overlapping caused by discrimination complexity is the another factor that hampers the learning performance. As the discrimination complexity and class imbalance rate of the problems increase, the learning performance of the AUC of a PR measure is much more variant than that of the AUC of a ROC measure. But the performances of both measures are similar with the low discrimination complexity and class imbalance rate of the problems. The experimental results show 4hat the AUC of a PR measure is more proper in evaluating the learning of class imbalance problem and furthermore gets the benefit in designing the optimal learning model considering a misclassification cost.

A Study on Calculating Over-sampling Ratio using Classification Complexity (분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발)

  • Lee, Do-Hyeon;Kim, Kyoungok
    • Annual Conference of KIPS
    • /
    • 2020.05a
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

SVM Ensemble Techniques for Class Imbalance Problem (데이터 불균형 문제에서의 SVM 앙상블 기법의 적용)

  • 강필성;이형주;조성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.706-708
    • /
    • 2004
  • 대부분의 기계학습 알고리즘은 학습 데이터에서 각각의 범주간의 비율이 동일하거나 비슷하다는 가정 하에 문제를 풀게 된다. 그러나 실제 문제에서는 그 비율이 동일하지 않으며 매우 큰 차이를 보이기도 하는데, 이는 분류 성능을 저하시키는 요인이기도 하다 따라서 본 논문에서는 이러한 데이터의 불균형 문제를 해소하는 방안으로 SVM 앙상블 기법을 적용한 샘플링을 제안하고 이를 실제 불균형 데이터에 적용함으로써 제안된 방법이 기존의 방법들에 비해 향상된 성능을 나타내는 것을 보였다.

  • PDF

GIR-based canonical forest: An ensemble method for imbalanced big data (불균형 데이터의 분류 성능 향상을 위한 일반화된 불균형 비율(GIR) 기반의 과소 표집 canonical forest (GC-Forest))

  • Solji Han;Jaesung Myung;Hyunjoong Kim
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.5
    • /
    • pp.615-629
    • /
    • 2024
  • In the field of big data mining, the challenge of imbalanced classification problem has been actively researched for decades. While imbalanced data issues manifest in various forms, past research mainly focused on addressing sample size imbalance between classes. However, recent studies have revealed that rather than the imbalance in sample size alone, the degradation of classification performance significantly worsens when the class overlap is combined. In response, this study introduces GC-Forest (GIR-based canonical forest), an effective ensemble classification method that utilizes weighted resampling technique considering the degrees of overlap between classes. This method measures the imbalance ratio in terms of class overlap at each stage of ensemble and balances the classes by increasing the representativeness of the minority class. Additionally, to improve overall classification performance, the GC-Forest method adopts the canonical forest method as an ensemble classifier, which is designed to enhance both the performance and diversity of individual classifiers. The performance of the proposed method was compared and verified through experiments using 14 different types of real imbalanced data. GC-Forest showed very competitive classification performance in terms of AUC, PR-AUC, G-mean, and F1-score compared to 7 other ensemble methods.

Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm (유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용)

  • Jang, Young-Sik;Kim, Jong-Woo;Hur, Joon
    • Journal of Intelligence and Information Systems
    • /
    • v.14 no.3
    • /
    • pp.133-154
    • /
    • 2008
  • The data imbalance problem which can be uncounted in data mining classification problems typically means that there are more or less instances in a class than those in other classes. In order to solve the data imbalance problem, there has been proposed a number of techniques based on re-sampling with replacement, adjusting decision thresholds, and adjusting the cost of the different classes. In this paper, we study the feasibility of the combination usage of the techniques previously proposed to deal with the data imbalance problem, and suggest a combination method using genetic algorithm to find the optimal combination ratio of the techniques. To improve the prediction accuracy of a minority class, we determine the combination ratio based on the F-value of the minority class as the fitness function of genetic algorithm. To compare the performance with those of single techniques and the matrix-style combination of random percentage, we performed experiments using four public datasets which has been generally used to compare the performance of methods for the data imbalance problem. From the results of experiments, we can find the usefulness of the proposed method.

  • PDF

EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems (데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs)

  • Gang Pil-Seong;Jo Seong-Jun
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.291-298
    • /
    • 2006
  • 패턴인식 문제에서 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 적으면 데이터 불균형이 발생했다고 한다. Support Vector Machine(SVM)은 다른 기계 학습 알고리즘들과 마찬가지로 학습에 사용되는 데이터의 범주간 비율이 거의 비슷하다는 가정 하에서 학습을 하고 예측 결과를 도출하게 된다. 그러나 실제 문제에서는 데이터의 불균형이 발생하는 경우가 매우 빈번하며, 이러한 경우에는 모델의 성능이 매우 저하되는 문제점이 발생한다. 본 논문에서는 실제로 데이터 불균형이 SVM의 분류 결과에 어떠한 영향을 미치는지를 2차원 인공 데이터를 통하여 알아본다. 그리고 이러한 데이터 불균형을 해소하기 위하여 Under-Sampling 기반 앙상블 SVM을 제안하였다. 제안된 방법을 두 가지 인공 데이터에 적용하여 본 결과, 제안된 방법은 데이터 불균형을 해소하기 위해 사용되는 기존의 방법들에 비하여 소수 범주에 속하는 데이터의 수가 매우 적고 데이터의 불균형이 매우 심한 경우에도 높은 성능과 안정성을 갖는 효과적인 방법이라는 것이 입증되었다.

  • PDF

Design of Flexible Hybrid Router to Process Unbalanced Input Effectively (불균형한 입력을 효과적으로 처리하는 유연한 혼합형 라우터 설계)

  • 정라미;김성천
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.648-650
    • /
    • 2000
  • 라우터의 기본적인 목적은 안정적으로 다량의 데이터를 전송하는 것이다. 현재 e양한 메시지를 효과적으로 처리하기 위한 여러 혼합형 라우터가 개발되고 있다. 이는 단순히 한가지 방식만 고수하는 것이 아니라 기존의 여러 기법을 혼합된 방식을 적용하는 것이다. 이러한 혼합형 기법은 기존의 단일 방식의 단점을 보완할 수 있어야 하며, 그에 따른 오버헤드를 감수할 수 있어야 한다. 이러한 목적으로 웜홀 스위칭(wormhole switching)과 파이프라인드 서킷 스위칭(Pipelined Circuit Switching)을 동시에 구현하기 위해 혼합형 라우터 구조가 제안되었다. 이 라우터는 두 스위칭 기법을 동시에 지원하여 다양한 메시지를 효과적으로 처리할 수 있는 특성이 있다. 그러나 이 구조는 각 스위칭 방식에 해당하는 내부 연결망을 독립적으로 구성함으로써 입력으로 들어오는 스위칭 비율이 불균형일 때 내부 자원을 효율적으로 사용할 수 없는 단점이 있다. 따라서 본 논문에서는 라우터의 내부 연결망을 공유하여 사용하는 새로운 혼합형 라우터를 제안하였다. 제안한 구조는 웜홀과 파이프라인드 서킷 스위칭을 지원하는 라우터로, 메시지를 전송할 때 내부 연결망을 서로 공유함으로써, 입력 메시지의 비율이 불균형할 때 효과적으로 자원을 이용할 수 있게 하였다. 시뮬레이션을 통하여 기존의 혼합형 라우터를 사용하는 것보다 더 높은 성능을 보인다는 것을 증명하였다.

  • PDF

An Empirical Study on the Effect of Chinese Regional Income Disparity from Globalization (세계화가 중국 지역간 소득불균형에 미치는 영향에 관한 실증분석)

  • Lee, Min-Hwan;Zhu, Shiyou
    • International Area Studies Review
    • /
    • v.13 no.3
    • /
    • pp.73-91
    • /
    • 2009
  • In this paper, we attempt to study the trend of regional disparity among Chinese provinces and examine the effects of globalization on the disparities adapting panel data approach. The panel data set utilized consists of the annual variables of 29 provinces during 18 years from 1990 to 2007. The trend of inter-provincial disparities in the 1990s with the expansive trend but the trend has started to decrease since 2000. The results of the China case study show clearly that the provincial international trade level and ratio variables perform on regional income disparities remarkably in all cases. It means that the large development of international trade do with increased among provincial disparity. While due to the large area in the provinces, there exist urban-rural disparities within provinces could be one of the main source of regional disparities. Therefore, along with western regions development policy various development policies against small cities are necessary for balanced regional economic growth in China.

A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data (데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구)

  • Leea, Hee-Jae;Lee, Sungim
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.3
    • /
    • pp.357-371
    • /
    • 2014
  • There are many studies related to imbalanced data in which the class distribution is highly skewed. To address the problem of imbalanced data, previous studies deal with resampling techniques which correct the skewness of the class distribution in each sampled subset by using under-sampling, over-sampling or hybrid-sampling such as SMOTE. Ensemble methods have also alleviated the problem of class imbalanced data. In this paper, we compare around a dozen algorithms that combine the ensemble methods and resampling techniques based on simulated data sets generated by the Backbone model, which can handle the imbalance rate. The results on various real imbalanced data sets are also presented to compare the effectiveness of algorithms. As a result, we highly recommend the resampling technique combining ensemble methods for imbalanced data in which the proportion of the minority class is less than 10%. We also find that each ensemble method has a well-matched sampling technique. The algorithms which combine bagging or random forest ensembles with random undersampling tend to perform well; however, the boosting ensemble appears to perform better with over-sampling. All ensemble methods combined with SMOTE outperform in most situations.