초록
불균형 자료 문제에 대한 해결책으로 SMOTE (synthetic minority over-sampling technique)가 가장 많이 사용되고 있다. SMOTE는 유클리드 거리를 기반으로 가장 가까운 이웃을 선택한다. 그러나 유클리드 거리의 단점 중 하나는 변수들 간의 상관관계를 고려하지 않는다는 것이다. 이에 대한 대안으로 변수 간의 공분산을 고려하는 마할라노비스 거리가 제안되었다. 그러나 이상치가 존재하는 경우, 대개 마할라노비스 거리를 계산하는 데 영향을 미친다. 이 문제를 해결하기 위해 최소 공분산 행렬 MCD (minimum covariance determinant)를 사용하여 공분산 행렬을 추정하여 마할라노비스 거리를 사용한다. 이후 MCD를 활용한 마할라노비스 거리를 SMOTE에 적용하여 새로운 관측치를 생성한다. 대부분의 경우 이 방법이 불균형 자료를 분류하는 데 높은 성능 지표를 제공함을 보여주었다.
SMOTE (synthetic minority over-sampling technique) has been used the most as a solution to the problem of imbalanced data. SMOTE selects the nearest neighbor based on Euclidean distance. However, Euclidean distance has the disadvantage of not considering the correlation between variables. In particular, the Mahalanobis distance has the advantage of considering the covariance of variables. But if there are outliers, they usually influence calculating the Mahalanobis distance. To solve this problem, we use the Mahalanobis distance by estimating the covariance matrix using MCD (minimum covariance determinant). Then apply Mahalanobis distance based on MCD to SMOTE to create new data. Therefore, we showed that in most cases this method provided high performance indicators for classifying imbalanced data.