DOI QR코드

DOI QR Code

Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE

단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법

  • Jongchan Kim (Department of Applied Statistics, Dankook University) ;
  • Seong Jun Chang (Department of Applied Statistics, Dankook University) ;
  • Won Son (Department of Statistics and Data Science, Dankook University)
  • 김종찬 (단국대학교 응용통계학과) ;
  • 장성준 (단국대학교 응용통계학과) ;
  • 손원 (단국대학교 통계데이터사이언스학과)
  • Received : 2024.02.15
  • Accepted : 2024.03.27
  • Published : 2024.08.31

Abstract

Text data is usually made up of a wide variety of unique words. Even in standard text data, it is common to find tens of thousands of different words. In text data analysis, usually, each unique word is treated as a variable. Thus, text data can be regarded as a dataset with a large number of variables. On the other hand, in text data classification, we often encounter class label imbalance problems. In the cases of substantial imbalances, the performance of conventional classification models can be severely degraded. To improve the classification performance of support vector machines (SVM) for imbalanced data, algorithms such as the Synthetic Minority Over-sampling Technique (SMOTE) can be used. The SMOTE algorithm synthetically generates new observations for the minority class based on the k-Nearest Neighbors (kNN) algorithm. However, in datasets with a large number of variables, such as text data, errors may accumulate. This can potentially impact the performance of the kNN algorithm. In this study, we propose a method for enhancing prediction performance for the minority class of imbalanced text data. Our approach involves employing variable selection to generate new synthetic observations in a reduced space, thereby improving the overall classification performance of SVM.

텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor; kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다.

Keywords

References

  1. Alcaraz J, Labbe M, and Landete M (2022). Support vector machine with feature selection: A multiobjective approach, Expert Systems with Applications, 204, 117485.
  2. Blagus R and Lusa L (2013). SMOTE for high-dimensional class-imbalanced data, BMC Bioinformatics, 14, 1-16. https://doi.org/10.1186/1471-2105-14-1
  3. Bouraoui A, Jamoussi S, and BenAyed Y (2018). A multi-objective genetic algorithm for simultaneous model and feature selection for support vector machines, Artificial Intelligence Review, 50, 261-281. https://doi.org/10.1007/s10462-017-9543-9
  4. Chawla NV, Bowyer KW, Hall LO, and Kegelmeyer WP (2002). SMOTE: Synthetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16, 321-357. https://doi.org/10.1613/jair.953
  5. Chen J, Huang H, Tian S, and Qu Y (2009). Feature selection for text classification with Naive Bayes, Expert Systems with Applications, 36, 5432-5435. https://doi.org/10.1016/j.eswa.2008.06.054
  6. Fan J (2013). Features of big data and sparsest solution in high confidence set. In Past, Present, and Future of Statistical Science (pp.531-548), CRC Press, New York.
  7. Faris H, Hassonah MA, Al-Zoubi AM, Mirjalili S, and Aljarah I (2018). A multi-verse optimizer approach for feature selection and optimizing SVM parameters based on a robust system architecture, Neural Computing and Applications, 30, 2355-2369. https://doi.org/10.1007/s00521-016-2818-2
  8. Forman G (2003). An extensive empirical study of feature selection metrics for text classification, Journal of Machine Learning Research, 3, 1289-1305.
  9. Han H, Wang WY, and Mao BH (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In International Conference on Intelligent Computing (pp. 878-887). Berlin, Heidelberg.
  10. He H, Bai Y, Garcia EA, and Li S (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In Proceedings of 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), Hong Kong, China, 1322-1328.
  11. Jang W, Kim YE, and Son W (2022). Feature selection for text data via topic modeling, The Korean Journal of Applied Statistics, 35, 739-754. https://doi.org/10.5351/KJAS.2022.35.6.739
  12. Mun HI and Son W (2022). Properties of chi-square statistic and information gain for feature selection of imbalanced text data, The Korean Journal of Applied Statistics, 35, 469-484. https://doi.org/10.5351/KJAS.2022.35.4.469
  13. Son W (2020). Skewness of chi-square statistic for imbalanced text data, Journal of the Korean Data Information Science Society, 31, 807-821. https://doi.org/10.7465/jkdi.2020.31.5.807
  14. Son W (2023). Feature selection for text data via sparse principal component analysis, The Korean Journal of Applied Statistics, 36, 501-514. https://doi.org/10.5351/KJAS.2023.36.6.501