DOI QR코드

DOI QR Code

Improving Levenberg-Marquardt algorithm using the principal submatrix of Jacobian matrix

Jacobian 행렬의 주부분 행렬을 이용한 Levenberg-Marquardt 알고리즘의 개선

  • 곽영태 (전북대학교 응용시스템공학부) ;
  • 신정훈 (전북대학교 응용시스템공학부)
  • Published : 2009.08.31

Abstract

This paper proposes the way of improving learning speed in Levenberg-Marquardt algorithm using the principal submatrix of Jacobian matrix. The Levenberg-Marquardt learning uses Jacobian matrix for Hessian matrix to get the second derivative of an error function. To make the Jacobian matrix an invertible matrix. the Levenberg-Marquardt learning must increase or decrease ${\mu}$ and recalculate the inverse matrix of the Jacobian matrix due to these changes of ${\mu}$. Therefore, to have the proper ${\mu}$, we create the principal submatrix of Jacobian matrix and set the ${\mu}$ as the eigenvalues sum of the principal submatrix. which can make learning speed improve without calculating an additional inverse matrix. We also showed that our method was able to improve learning speed in both a generalized XOR problem and a handwritten digit recognition problem.

본 논문은 Levenberg-Marquardt 알고리즘에서 Jacobian 행렬의 주부분 행렬을 이용하여 학습속도를 개선하는 방법을 제안한다. Levenberg-Marquardt 학습은 오차함수에 대한 2차 도함수를 계산하기 위해 Hessian 행렬을 사용하는 대신 Jacobian 행렬을 이용한다. 이런 Jacobian 행렬을 가역행렬로 만들기 위해, Levenberg-Marquardt 학습은 ${\mu}$값을 증가시키거나 감소시키는 과정을 수행하고 ${\mu}$값의 변경에 따른 역행렬의 재계산이 필요하다. 따라서 본 논문에서는 ${\mu}$값의 설정을 위해 Jacobian 행렬의 주부분 행렬을 생성하고 주부분 행렬의 고유값 합을 이용하여 ${\mu}$값을 설정한다. 이와 같은 방법은 추가적인 역행렬 계산을 하지 않으므로 학습속도를 개선할 수 있다. 제안된 방법은 일반화된 XOR 문제와 필기체 숫자인식 문제를 대상으로 실험하여 학습속도의 향상을 검증하였다.

Keywords

References

  1. D. E. Rumelhart and J. L. McClelland, Parallel Distributed Processing, MIT Press, Cambridge, MA, pp. 318-362, 1986.
  2. 김성완, "MLP 신경망을 위한 시공간 병렬처리모델," 한국컴퓨터정보학회 논문지, 제10권 제5호, 95-102쪽, 2005년 11월
  3. 김광백, 조재현, "퍼지 신경망을 이용한 자동차 번호판 인식 시스템," 한국컴퓨터정보학회 논문지, 제12권 제5호, 313-319쪽, 2007년 11월
  4. John Moody and Christian J. Darken, "Fast Learning in Networks of Locally-Tuned Processing Units." Neural Computation. vol. 1, pp. 281-294, 1989. https://doi.org/10.1162/neco.1989.1.2.281
  5. T. P. Vogal, J. K. Mangis, A. K. Zigler, W. T. Zink and D. L. Alkon, "Accelerating the convergence of the backpropagation method." Biological Cybernetics. vol. 59. pp. 256-264. Sept. 1988.
  6. T. Tollenaere. "SuperSAB: Fast adaptive back propagation with good scaling properties," Neural Networks, vol. 3, no. 5, pp. 561-573, 1990. https://doi.org/10.1016/0893-6080(90)90006-7
  7. M. Kordos and W. Duch, "Variable step search algorithm for feedforward networks," Neurocomputing, vol. 71, pp. 2470-2480, 2008. https://doi.org/10.1016/j.neucom.2008.02.019
  8. C. Charalambous. "Conjugate gradient algorithm for efficient training of artificial neural networks." IEEE Proceedings. vol. 139, no. 3, pp. 301-310, 1992. https://doi.org/10.1049/ip-d.1992.0041
  9. Rolnald E. Miller, Optimization. John Wiley & Son, INC. pp. 358-362, 2000.
  10. M. T. Hagan and M. Menhaj, "Training feedforward networks with the Marquardt algorithm." IEEE Transactions on Neural Networks, vol. 5, no. 6, pp. 989-993, 1994. https://doi.org/10.1109/72.329697
  11. M. A. Costa, A. P. Braga and B. R. Menezes, "Improving generation of MLPs with sliding mode control and the Levenberg-Marquardt algorithm," Neurocomputing, vol. 70, pp. 1342-1347, 2007. https://doi.org/10.1016/j.neucom.2006.09.003
  12. L. E. Scales, Introduction to Non-linear Optimization, New York: Springer-Verlag, 1985.
  13. M. T. Hagan, H. B. Demuth, M. Beale, Neural Network Design, PWS Publishing Company, 1995.
  14. J. J. Hull, "A database for handwritten text recognition research," IEEE Transaction Pattern and Machine Intell., vol. 16, pp. 550-554. 1994. https://doi.org/10.1109/34.291440