초록
본 논문은 얼굴영상에서 눈과 입 부위를 추출하기 위한 알고리즘을 제안하였다. 첫째로, 눈과 입의 에지 이진 화소 집합의 고유 값 (Eigenvalue) 과 고유 벡터 (Eigenvector) 로 부터 추출한 정보들은 눈과 입을 찾기 위한 좋은 특징이 된다. 눈과 입 부위의 긍정적 샘플과 부정적 샘플로부터 추출한 고유 특징들로 다층 신경망을 학습하여 특정 영역이 눈과 입 부위 포함하는 정도를 나타내도록 하였다. 둘째로, 시스템의 강건성 확보를 위해 서로 다른 구조의 단일 MLP를 묶어서 그 결과를 이용하는 Ensemble network 구조를 사용하였다. 두 눈과 입에 각각 별도의 Ensemble network을 사용하였고, 각 Ensemble network내 MLP들의 출력이 최대가 되는 영역의 중심 좌표들을 평균하여 최종 위치를 결정하였다. 셋째로, 특징 정보 추출 검색 영역을 즐기기 위해 얼굴 영상 에지 정보와 눈과 입의 위치 관계를 이용해 눈과 입의 대략적인 영역을 추출하였다. 제안된 시스템은 적은 수의 정면 얼굴에서 추출한 고유 특징들로 학습된 Ensemble network을 사용하여 학습에 사용되지 않은 다른 사람들의 정면얼굴 뿐만 아니라 일정한 범위 내 자세 변화에서도 좋은 일반화 성능을 얻고 있으며, 작은 범위 내에서의 얼굴 크기 변화나 좌우 20°이내의 자세 변화에 대해서도 신경망의 일반화 기능을 이용하여 강건한 결과를 얻고 있음을 확인하였다.
This paper presents a novel algorithm lot extraction of the eye and mouth fields (facial features) from 2D gray level face images. First of all, it has been found that Eigenfeatures, derived from the eigenvalues and the eigenvectors of the binary edge data set constructed from the eye and mouth fields are very good features to locate these fields. The Eigenfeatures, extracted from the positive and negative training samples for the facial features, ate used to train a MultiLayer Perceptron(MLP) whose output indicates the degree to which a particular image window contains the eye or the mouth within itself. Second, to ensure robustness, the ensemble network consisting of multiple MLPs is used instead of a single MLP. The output of the ensemble network becomes the average of the multiple locations of the field each found by the constituent MLPs. Finally, in order to reduce the computation time, we extracted the coarse search region lot eyes and mouth by using prior information on face images. The advantages of the proposed approach includes that only a small number of frontal faces are sufficient to train the nets and furthermore, lends themselves to good generalization to non-frontal poses and even to other people's faces. It was also experimentally verified that the proposed algorithm is robust against slight variations of facial size and pose due to the generalization characteristics of neural networks.