DOI QR코드

DOI QR Code

Supervised Rank Normalization with Training Sample Selection

학습 샘플 선택을 이용한 교사 랭크 정규화

  • Heo, Gyeongyong (Dept. of Electronic Engineering, Dong-eui University) ;
  • Choi, Hun (Dept. of Electronic Engineering, Dong-eui University) ;
  • Youn, Joo-Sang (Dept. of Multimedia Engineering, Dong-eui University)
  • 허경용 (동의대학교 전자공학과) ;
  • 최훈 (동의대학교 전자공학과) ;
  • 윤주상 (동의대학교 멀티미디어공학과)
  • Received : 2014.11.03
  • Accepted : 2015.01.06
  • Published : 2015.01.31

Abstract

Feature normalization as a pre-processing step has been widely used to reduce the effect of different scale in each feature dimension and error rate in classification. Most of the existing normalization methods, however, do not use the class labels of data points and, as a result, do not guarantee the optimality of normalization in classification aspect. A supervised rank normalization method, combination of rank normalization and supervised learning technique, was proposed and demonstrated better result than others. In this paper, another technique, training sample selection, is introduced in supervised feature normalization to reduce classification error more. Training sample selection is a common technique for increasing classification accuracy by removing noisy samples and can be applied in supervised normalization method. Two sample selection measures based on the classes of neighboring samples and the distance to neighboring samples were proposed and both of them showed better results than previous supervised rank normalization method.

특징 정규화는 인식기를 적용하기 이전의 전처리 단계로 특징 차원에 따라 서로 다른 스케일에 의해 발생하는 오류를 줄이기 위해 널리 사용된다. 하지만 기존 정규화 방법은 클래스 라벨을 고려하지 않으므로 정규화 결과가 인식률에서 최적임을 보장하지 못하는 문제점이 있다. 이를 개선하기 위해 클래스 라벨을 사용하여 정규화를 시행하는 교사 정규화 방법이 제안되었고 기존 정규화 방법에 비해 나은 성능을 보임이 입증되었다. 이 논문에서는 교사 랭크 정규화 방법에 학습 샘플 선택 방법을 적용함으로써 교사 랭크 정규화 방법을 더욱 개선할 수 있는 방법을 제안한다. 학습 샘플 선택은 잡음이 많은 샘플을 학습에서 제외함으로써 잡음에 보다 강한 분류기를 학습시키는 전처리 단계로 많이 사용되며 랭크 정규화에서도 역시 사용될 수 있다. 학습 샘플 선택은 이웃한 샘플이 속하는 클래스와 이웃한 샘플까지의 거리를 바탕으로 하는 두 가지 척도를 제안하였고, 두 가지 척도 모두에서 기존 정규화 방법에 비해 인식률이 향상되었음을 실험 결과를 통해 확인할 수 있었다.

Keywords

References

  1. Eunseog Youn and Myong K. Jeong, "Class dependent feature scaling method using naive Bayes classifier for text datamining," Pattern Recognition Letters, Vol. 30, No. 5, pp. 477-485, Apr. 2009. https://doi.org/10.1016/j.patrec.2008.11.013
  2. Soojong Lee and Gyeongyong Heo, "Supervised Rank Normalization for Support Vector Machines," Journal of The Korea Society of Computer and Information, Vol. 18, No. 11, pp. 31-38, Nov. 2013. https://doi.org/10.9708/jksci.2013.18.11.031
  3. Gyeongyong Heo, Choong-Shik Park, and Chang-Woo Lee, "Training Sample and Feature Selection Methods for Pseudo Sample Neural Networks," Journal of The Korea Society of Computer and Information, Vol. 18, No. 4, pp. 19-26, Apr. 2013. https://doi.org/10.9708/jksci.2013.18.4.019
  4. Vladimir Vapnik, Statistical Learning Theory, John Wiley & Sons, New York, 1998.
  5. Ashis Pradhan, "Support Vector Machine - A Survey," International Journal of Emerging Technology and Advanced Engineering, Vol. 2, No. 8, pp. 82-85, Aug. 2012.
  6. Yvan Saeys, Inaki Inza and Pedro Larranaga, "A review of feature selection techniques in bioinformatics," Bioinformatics, Vol. 23, No. 19, pp. 2507-2517, Aug. 2007. https://doi.org/10.1093/bioinformatics/btm344
  7. Keinosuke Fukunaga, Introduction to Statistical Pattern Recognition, 2nd edition, SanDiego, AcademicPress, 1990
  8. Andreas Stolcke, Sachin Kajarekar, and Luciana Ferrer, "Nonparametric Feature Normalization for SVM-based Speaker Verification," Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, Las Vegas NV, pp. 1577-1580, March 2008.