DOI QR코드

DOI QR Code

Training Sample and Feature Selection Methods for Pseudo Sample Neural Networks

의사 샘플 신경망에서 학습 샘플 및 특징 선택 기법

  • 허경용 (동의대학교 전자공학과) ;
  • 박충식 (영동대학교 스마트IT학부) ;
  • 이창우 (국립산림과학원 산림방재연구과)
  • Received : 2013.02.21
  • Accepted : 2013.04.10
  • Published : 2013.04.30

Abstract

Pseudo sample neural network (PSNN) is a variant of traditional neural network using pseudo samples to mitigate the local-optima-convergence problem when the size of training samples is small. PSNN can take advantage of the smoothed solution space through the use of pseudo samples. PSNN has a focus on the quantity problem in training, whereas, methods stressing the quality of training samples is presented in this paper to improve further the performance of PSNN. It is evident that typical samples and highly correlated features help in training. In this paper, therefore, kernel density estimation is used to select typical samples and correlation factor is introduced to select features, which can improve the performance of PSNN. Debris flow data set is used to demonstrate the usefulness of the proposed methods.

의사 샘플 신경망은 학습 샘플의 수가 적은 경우 학습된 신경망이 국부 최적해에 빠져 성능이 저하되는 것을 보완하기 위해 기존 샘플들로부터 의사 샘플을 생성하고 이를 통해 해공간을 평탄화 시킴으로써 학습된 신경망의 성능을 향상시킬 수 있는 신경망의 변형이다. 이는 학습 샘플의 양에 관한 문제로 이 논문에서는 이에 더해 학습 샘플의 질을 향상시킴으로써 학습된 신경망의 성능을 더욱 높일 수 있는 방법을 제시하였다. 잡음이 적게 포함된 전형적인 학습 샘플들만이 주어지고 입력 특징 중 출력과 연관성이 높은 특징만을 사용함으로써 학습된 신경망의 성능을 높일 수 있음은 자명하다. 따라서 이 논문에서는 커널밀도 추정을 통해 비전형적인 학습샘플을 제거하고 입력값이 출력값에 미치는 영향을 나타내는 연관성 척도를 사용하여 연관성이 적은 특징을 제거함으로써 의사 샘플 신경망의 성능을 향상시킬 수 있음을 보였다. 제시한 방법의 유효성은 토석류 데이터를 이용한 실험을 통해 확인할 수 있다.

Keywords

References

  1. C. M. Bishop, "Pattern Recognition and Machine Learning," 2nd ed. Springer, 2007.
  2. R. P. W. Duin, "Small sample size generalization," Proceedings of the 9th Scandinavian Conference on Image Analysis, pp. 957-964, Oct. 1995.
  3. T. G. van Niel, T. R. McVicar, and B. Datt, "On the relationship between training sample size and data dimensionality: Monte Carlo analysis of broadband multi-temporal classification," Remote Sensing of Environment, Vol. 98, No. 4, pp. 468-480, 2005. https://doi.org/10.1016/j.rse.2005.08.011
  4. Gyeongyong Heo, Chang-Woo Lee, and Choong-Shik Park, "Parameter Estimation in Debris Flow Deposition Model Using Pseudo Sample Neural Network," Journal of the Korea Society of Computer and Information, Vol. 17, No. 11, pp. 11-18, Nov. 2012. https://doi.org/10.9708/jksci/2012.17.11.011
  5. M. Rosenblatt, "Remarks on some nonparametric estimates of a density function," Annals of Mathematical Statistics, Vol. 27, No. 3, pp. 832-837, Sep. 1956. https://doi.org/10.1214/aoms/1177728190
  6. E. Parzen, "On estimation of a probability density function and mode," Annals of Mathematical Statistics, Vol. 33, No. 3, pp. 1065-1076, Sep. 1962. https://doi.org/10.1214/aoms/1177704472
  7. Z. I. Botev, J. F. Grotowski, and D. P. Kroese, "Kernel density estimation via diffusion," Annals of Statistics, Vol. 38, No. 5, pp. 2916-2967, Oct. 2010. https://doi.org/10.1214/10-AOS799
  8. J. Aldrich, "Correlations Genuine and Spurious in Pearson and Yule," Statistical Science, Vol. 10, No. 4, pp. 364-376, Nov. 1995. https://doi.org/10.1214/ss/1177009870
  9. Chang-Woo Lee, Choongshik Woo, and Ho-Joong Youn, "Analysis of Debris Flow Hazard Zone by the Optimal Parameters Extraction of Random Walk Model − Case on Debris Flow Area of Bonghwa County in Gyeongbuk Province," Journal of Korean Forest Society, Vol. 100, No. 4, pp. 664-671, Apr. 2011.

Cited by

  1. 학습 샘플 선택을 이용한 교사 랭크 정규화 vol.20, pp.1, 2013, https://doi.org/10.9708/jksci.2015.20.1.021