Extensions of LDA by PCA Mixture Model and Class-wise Features

PCA 혼합 모형과 클래스 기반 특징에 의한 LDA의 확장

  • 김현철 (포항공과대학교 컴퓨터공학과) ;
  • 김대진 (포항공과대학교 컴퓨터공학과) ;
  • 방승양 (포항공과대학교 컴퓨터공학과)
  • Published : 2005.08.01

Abstract

LDA (Linear Discriminant Analysis) is a data discrimination technique that seeks transformation to maximize the ratio of the between-class scatter and the within-class scatter While it has been successfully applied to several applications, it has two limitations, both concerning the underfitting problem. First, it fails to discriminate data with complex distributions since all data in each class are assumed to be distributed in the Gaussian manner; and second, it can lose class-wise information, since it produces only one transformation over the entire range of classes. We propose three extensions of LDA to overcome the above problems. The first extension overcomes the first problem by modeling the within-class scatter using a PCA mixture model that can represent more complex distribution. The second extension overcomes the second problem by taking different transformation for each class in order to provide class-wise features. The third extension combines these two modifications by representing each class in terms of the PCA mixture model and taking different transformation for each mixture component. It is shown that all our proposed extensions of LDA outperform LDA concerning classification errors for handwritten digit recognition and alphabet recognition.

LDA는 클래스간 퍼진 정도와 클래스내 퍼진 정도의 비를 최대화하는 변환를 구하는 데이터 구분 기술이다. LDA는 여러 가지 응용에 성공적으로 응용되었지만 그 모델의 단순성과 관련된 두 가지 한계를 가지고 있다. 첫째는 각 클래스의 데이타가 가우시안 분포를 가진다고 가정되므로 복잡한 분포를 갖는 데이타를 구분하는데 실패한다는 것이다. 둘째는 LDA가 클래스의 전체 범위에 대해서 단지 하나의 변환만을 주므로 클래스 기반의 정보를 잃게 된다는 것이다. 본 논문은 위의 문제들을 극복하는 세가지 확장들을 제안한다. 첫 번째 확장은 더 복잡한 분포를 표현할 수 있는 PCA 혼합 모형을 이용하여 클래스내 퍼진 정도를 모델링함으로써 첫째 문제를 극복한다. 두번째 확장은 클래스 기반 특징들을 제공하기 위해서 각 클래스에 대해 다른 변환을 취함으로써 둘째 문제를 극복한다. 셋째 확장은 PCA 혼합 모형의 관점에서 각 클래스를 표현함으로써 앞의 두 확장을 결합하는 것이다. 숫자 인식과 알파벳 인식에 대한 실험에서 LDA의 모든 제안된 확장들이 LDA보다 더 좋은 분류 성능을 보여 주었다.

Keywords

References

  1. Duda, R., Hart, P., 1974. Pattern classification and scene analysis. Wiley, New York
  2. Belhumeur P. N., Hespanha J. P., Kriegmaqn D. J., 'Eigenfaces vs. Fisherfaces : recognition using class specific Linear Projection,' IEEE Trans. on Pattern Analysis and Machine Intell., Vol.19, No.7, pp.711-720, 1997 https://doi.org/10.1109/34.598228
  3. Swets, D., Weng, J., 1996. Using Discriminant Eigenfeatures for Image Retrieval, IEEE Transactions on PAMI, 18(8), 831-836 https://doi.org/10.1109/34.531802
  4. Hastie, T. and Buja, A. and Tibshirani, R., 1995. Penalized discriminant analysis, Annals of Statistics, 23, 73-102 https://doi.org/10.1214/aos/1176324456
  5. Hastie, T., Tibshirani, R., 1996. Discriminant Analysis by Gaussian Mixtures, Journal of the Royal Statistical Society: series-B
  6. Baudat, G. and Anouar, F., 2000, Generalized discriminant analysis using a kernel approach. Neural Computation, 12(10), 2385-2404 https://doi.org/10.1162/089976600300014980
  7. Jacobs, R., Jordan, M., Nowlan, S., Hinton, G., 1991. Adaptive mixtures of local experts. Neural Computation. 3, 79-87 https://doi.org/10.1162/neco.1991.3.1.79
  8. Tipping, M., Bishop, C., 1999. Mixtures of probabilistic principal component analyzers. Neural Computation, 11, 443-482 https://doi.org/10.1162/089976699300016728
  9. Dempster, P., Laird, N., Rubin, D., 1977. Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society: series-B. 39(4), 1-38
  10. Blake, C., Merz, C., 1998. UCI Repository of Machine Learning Databases. Department of Information and Computer Science, University of California, Irvine, CA
  11. ETL Character Database, Image Understanding Section, Electrotechnical Laboratory, 1-1-4, Umezono, Tsukuba, Ibaraki, 305, Japan
  12. A. Hyvarinen and E. Oja, 'A Fast Fixed Point Algorithms for Independent Component Analysis,' Neural Computation, Vol.9, No.7, pp.1483-1492, Oct., 1997 https://doi.org/10.1162/neco.1997.9.7.1483