A neural network model for recognizing facial expressions based on perceptual hierarchy of facial feature points

얼굴 특징점의 지각적 위계구조에 기초한 표정인식 신경망 모형

  • 반세범 (연세대학교 심리학과. 현재 성균관대학교 심림학과 BK21박사후 과정) ;
  • 정찬섭 (연세대학교 심리학과)
  • Published : 2001.06.01

Abstract

Applying perceptual hierarchy of facial feature points, a neural network model for recognizing facial expressions was designed. Input data were convolution values of 150 facial expression pictures by Gabor-filters of 5 different sizes and 8 different orientations for each of 39 mesh points defined by MPEG-4 SNHC (Synthetic/Natural Hybrid Coding). A set of multiple regression analyses was performed with the rating value of the affective states for each facial expression and the Gabor-filtered values of 39 feature points. The results show that the pleasure-displeasure dimension of affective states is mainly related to the feature points around the mouth and the eyebrows, while a arousal-sleep dimension is closely related to the feature points around eyes. For the filter sizes. the affective states were found to be mostly related to the low spatial frequency. and for the filter orientations. the oblique orientations. An optimized neural network model was designed on the basis of these results by reducing original 1560(39x5x8) input elements to 400(25x2x8) The optimized model could predict human affective rating values. up to the correlation value of 0.886 for the pleasure-displeasure, and 0.631 for the arousal-sleep. Mapping the results of the optimized model to the six basic emotional categories (happy, sad, fear, angry, surprised, disgusted) fit 74% of human responses. Results of this study imply that, using human principles of recognizing facial expressions, a system for recognizing facial expressions can be optimized even with a a relatively little amount of information.

얼굴 특징점의 지각적 위계구조를 반영한 표정인식 신경망 모형을 설계하였다. 입력자료는 MPEG-4 SNHC(Synthetic/Natural Hybrid Coding)의 얼굴 정의 파라미터(FDP) 중 39개 특징점 각각에 대해 150장의 표정연기 사진을 5개의 크기와 8개의 바위를 갖는 Gabor 필터로분석한 값이었다. 표정영상에 대한 감정상태 평정 값과 39개 특징점의 필터 반응 값을 중가 회귀분석한 결과, 감정상태의 쾌-불쾌 차원은 주로 입과 눈썹 주변의 특징점과 밀접한 과련이 있었고, 각성-수면차원은 주로 눈 주변의 특징점과 밀접한 관련이 있었다. 필터의 크기는 주로 저역 공간 주파수 필터와 감정상태가 관련이 있었고, 필터의 방위는 주로 비스듬한 사선방위와 감정상태가 관련이 있었다. 이를 기초로 표정인식 신경망을 최적화한 결과 원래 1560개(39x5x8) 입력요소를 400개(25x2x8)입력요소로 줄일 수 있었다. 표정인식 신경망의 최적화 결과를 사람의 감정상태 평정과 비교하여 볼 때, 쾌-불쾌 차원에서는 0.886의 상관관계가 있었고, 각성-수면 차원에서는 0.631의 상관관계가 있었다. 표정인식 신경망의 최적화 모형을 기쁨, 슬픔, 놀람, 공포, 분노, 혐오 등의 6가지 기본 정서 범주에 대응한 결과 74%의 인식률을 얻었다. 이러한 결과는 사람의 표정인식 원리를 이용하면 작은 양의 정보로도 최적화된 표정인식 시스템을 구현할수 있다는 점을 시시한다.

Keywords