Fast and Robust Face Detection based on CNN in Wild Environment

Song, Junam;Kim, Hyung-Il;Ro, Yong Man;

doi:10.9717/kmms.2016.19.8.1310

한국멀티미디어학회논문지 (Journal of Korea Multimedia Society)

제19권8호
/
Pages.1310-1319
/
2016
/
1229-7771(pISSN)
/
2384-0102(eISSN)

한국멀티미디어학회 (Korea Multimedia Society)

DOI QR Code

CNN 기반의 와일드 환경에 강인한 고속 얼굴 검출 방법

Fast and Robust Face Detection based on CNN in Wild Environment

Song, Junam (School of Electrical Engineering, KAIST) ;
Kim, Hyung-Il (School of Electrical Engineering, KAIST) ;
Ro, Yong Man (School of Electrical Engineering, KAIST)

투고 : 2016.07.27
심사 : 2016.08.03
발행 : 2016.08.30

https://doi.org/10.9717/kmms.2016.19.8.1310 인용 PDF KSCI KPUBS HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

Face detection is the first step in a wide range of face applications. However, detecting faces in the wild is still a challenging task due to the wide range of variations in pose, scale, and occlusions. Recently, many deep learning methods have been proposed for face detection. However, further improvements are required in the wild. Another important issue to be considered in the face detection is the computational complexity. Current state-of-the-art deep learning methods require a large number of patches to deal with varying scales and the arbitrary image sizes, which result in an increased computational complexity. To reduce the complexity while achieving better detection accuracy, we propose a fully convolutional network-based face detection that can take arbitrarily-sized input and produce feature maps (heat maps) corresponding to the input image size. To deal with the various face scales, a multi-scale network architecture that utilizes the facial components when learning the feature maps is proposed. On top of it, we design multi-task learning technique to improve detection performance. Extensive experiments have been conducted on the FDDB dataset. The experimental results show that the proposed method outperforms state-of-the-art methods with the accuracy of 82.33% at 517 false alarms, while improving computational efficiency significantly.

키워드

1. 서 론

최근 얼굴 정보를 이용한 다양한 어플리케이션(application)이 등장함에 따라 실용적인 얼굴 검출방법에 관심이 높아지고 있다. 얼굴 인식 시스템은 특정인의 출입을 허가하는 보안시스템과 감시 환경에서 개인의 프라이버시(privacy) 보호를 위해 사용되고 있다. 또한, 표정 인식은 얼굴 영역에 대해 표정 변화를 분석하여 외형적 표정 변화로 부터 사람의 감정을 해석하는 분야에 이용되고 있다. 이러한 얼굴 정보를 활용한 어플리케이션의 영역이 확대되고 그 수가 증가함에 따라 다양한 환경에서 얼굴 영역을 정확하게 추출할 수 있는 실용성 높은 얼굴 검출 방법에 대한 연구가 활발하게 진행되고 있다.

2000년대에 제안된 비올라 존스(Viola-Jones) 방법[1]은 얼굴 검출의 실용적인 가능성을 제시한 최초의 모델이다. 적분 영상(integral image) 기법을 이용하여 Haar-like 특징 정보를 효율적으로 추출하고 이를 제안한 Adaboost의 직렬로 연결된 분류기를 이용하여 최종적인 얼굴 영역을 선별한다. 그러나 이러한 방법은 단순한 특징 정보를 이용하기 때문에 얼굴의 자세 변화 또는 가림과 같은 환경에서 얼굴 검출 성능이 크게 떨어진다[2,3]. 이러한 문제를 해결하기 위해 변형 가능한 파트 모델(deformable part model: DPM)[4,5,6]이 제안되었다. 이 방법은 얼굴 구성 요소의 기하학적인 위치 관계에 의한 조합으로서 얼굴 영역을 정의한다. 얼굴 구성 요소의 일부가 손실되더라도 얼굴 영역을 판정할 수 있기 때문에 자세 변화 또는 가림에 강인한 특성을 보인다. 그러나 각 얼굴의 구성 요소의 존재 가능성에 대한 일차적인 과정뿐만 아니라 슬라이딩 위도우 방법(sliding window method)으로부터 추출된 수많은 윈도우에 대해 파트 모델의 매칭(matching) 정도를 판정하는 것은 큰 복잡도를 수반하게 된다. 또한, 이러한 파트 모델을 학습하기 위해서는 각각의 파트의 정확한 라벨(label)이 포함된 대규모의 데이터베이스(database)가 필요하다.

최근에 다양한 컴퓨터 비전(computer vision)의 분야에서 학습에 기반한 합성곱 신경망(convolutional neural network: CNN) 방법이 큰 성과를 이루었다 [7]. CNN의 얼굴 검출 방법이 검출 성능에서 큰 발전을 이루었지만, 시스템의 증가된 복잡도는 이에 대한 실용성에 의문을 갖게 했다. 320×240의 이미지로부터 추출할 수 있는 윈도우(window)의 수는 십억 개에 달한다[8]. 수많은 패치에 대해서 각각 CNN에 기반하여 특징 정보를 추출하고 얼굴과 얼굴이 아닌 영역으로 분류(classification)를 하게 된다. 이는 얼굴 검출 성능과 시스템의 복잡도 사이의 트레이드오프(trade off) 관계를 잘 나타낸다. 또한, 인접한 윈도우 사이의 교집합 영역에 대해 합성곱 연산(convolution operation)이 반복적으로 수행됨으로써 불필요한 연산 과정이 포함되고, 합성곱 신경망의 인공 신경망 계층(fully-connected layer)의 입력과 출력이 고정됨으로 인하여 그 신경망을 통과하는 모든 입력 데이터는 입력 데이터의 크기를 고정된 크기로 재조정(resizing)하는 과정을 수반함으로써 시스템(system)의 연산 복잡도가 증가하게 된다.

본 논문에서는 얼굴의 포즈 변화와 가림이 발생하는 와일드(wild) 환경에서 정확하고 빠르게 얼굴 검출을 수행하는 두 단계(two-step)의 CNN에 기반한 방법을 제안한다. (1) 멀티스케일 프로포잘 네트워크(multi-scale proposal network)는 얼굴 요소의 히트맵을 멀티스케일로 나타내고, 얼굴의 요소 정보를 이용함으로써 얼굴의 포즈 변화 또는 가림에 강인하도록 설계하였다. 또한, 합성곱 층(convolutional layer)이 직렬(cascade)로 연결된 완전한 합성곱 신경망(fully convolutional network: FCN)을 이용하여 입력 이미지에 대응되는 확률 맵을 계산한다. 확률 맵(또는, 히트맵)은 각각의 픽셀(pixel) 값을 얼굴이 존재할 확률 값으로 매핑(mapping)한 것으로 낮은 복잡도로 후보 얼굴 영역을 정확하게 판별할 수 있으며, 인공 신경망 계층을 제외한 구조를 채택하여 입력 이미지의 크기를 재조정 하는 과정을 건너 뛸 수 있다. (2) 디텍션 네트워크(detection network)는 얼굴 영역인지 아닌지를 판별하는 분류(classification) 과정에 추가적으로 얼굴 후보 영역을 보다 정교하게 얼굴 영역으로 회귀(regression)하는 과정을 포함한다.

제안하는 방법의 성능을 검증하기 위해 다양한 포즈와 가림 그리고 다양한 크기의 얼굴이 존재하는 FDDB[9] 데이터베이스(database)를 사용한다. 또한, 얼굴 검출 성능뿐만 아니라 제안하는 시스템의 처리속도를 다른 시스템과 비교함으로써 제안하는 방법이 얼마나 낮은 시스템 복잡도를 갖는지를 검증한다.

본 논문의 구성은 2장에서 제안하는 방법을 상세하게 설명하고, 3장에서 실험에 사용된 데이터베이스 및 환경 그리고 실험 결과에 대해 기술한다. 4장에서 결론을 맺으며 본 논문을 마친다.

2. 제안하는 방법

본 장에서는 Fig. 1과 같이 얼굴 요소 히트맵(heat map)을 표현하는 멀티스케일 프로포잘 네트워크(multi-scale proposal network)와 멀티테스크(multitask)를 수행하는 디텍션 네트워크(detection network)로 구성된 두 단계(two-stage)의 시스템(system)에 대해서 설명한다. 2.1절에서 제안하는 방법의 전반적 구조에 대해서 간략하게 설명한다. 이어서 2.2절 그리고 2,3절에 걸쳐서 프로포잘 네트워크와 디텍션 네트워크에 대해 네트워크의 학습방법을 비롯하여 그 역할에 대해 상세하게 기술한다.

Fig. 1.Our overall framework.

2.1 제안하는 알고리즘의 개요

본 논문에서 제안하는 방법은 깊은 합성곱 신경망(deep convolutional neural network)에 기반한 두 단계의 시스템으로 이루어져있다. 첫 번째 과정으로서, 프로포잘 네트워크는 선행 학습된 모델(pretrained model)에 대해 미세조정(fine-tuning)의 학습 방법을 사용한다. 얼굴의 구성요소 히트맵을 표현하기 위해 얼굴 특징점(facial landmark)을 이용하고, 이렇게 구성된 싱글 스케일(single-scale)의 완전한 합성곱 신경망(fully convolutional network: FCN)을 멀티스케일로 확장함으로써 얼굴의 크기 변화에 강인하도록 설계한다. 프로포잘 네트워크의 히트맵으로부터 얼굴 후보 영역을 추출하고 각각의 영역은 얼굴 경계 영역 회귀법을 포함하는 디텍션 네트워크를 거치게 된다. 분류 과정은 얼굴과 얼굴이 아닌 영역을 분별함으로써 오검출(false-positive)되는 영역을 줄인다. 또한 얼굴 경계 영역 회귀법은 더욱 정밀하게 얼굴 후보 영역을 얼굴 영역으로 이동시킴으로써 검출 성능을 향상시킨다. 두 단계의 시스템을 거쳐 살아남은 얼굴 후보 영역에 대해 후 처리 과정(post processing)의 non-maximum suppression(NMS)[10]를 수행하여 최종적인 얼굴 영역을 제시한다.

2.2 얼굴 요소 히트맵의 멀티스케일 프로포잘 네트워크(multi-scale proposal network for facial component heat map)

Fig. 2의 프로프잘 네트워크는 다섯 합성곱 층(convolutional layer)가 직렬로 연결되고, 첫 번째와 두 번째 그리고 다섯 번째 합성곱 층에는 가중치와 통합 층(max pooling layer)가 바로 이어진다. 그리고 세 인공 신경망 층(fully-connected layer)이 마지막으로 연결되고, 마지막 인공 신경망 층은 라벨(label) 정보를 포함하므로 선행 학습된 모델과 다른 인공 신경망 층의 구조를 갖는다.

Fig. 2.Learning strategy of proposal network in a single scale.

얼굴 특징점의 위치 정보를 이용하여 얼굴 요소를 표현하는 합성곱 신경망을 학습한다. Fig. 2와 같이 심층적인 신경망 구조는 대규모의 파라미터(parameter)를 포함하고 있기 때문에 라벨(label)로 부여한 얼굴 특징점의 위치 정보를 특정 얼굴 요소를 지역화(localize)하기 위한 정보로서 해석하는 데 어려움이 있다. 따라서 신경망의 초기 가중치(initial weight)를 가우시안 분포(gaussian distribution)로 설정하는 것이 아니라 요소 정보를 지역화하는 특성의 가중치를 초기 값으로 사용한다. 이와 같은 방법을 전이학습(transfer learning)이라 일컫는다.

이미지 분류(image classification) 문제를 풀기 위해 설계된 AlexNet[11]의 구조를 선행 학습된 모델로 사용한다. 이미지 분류란 영상 정보에 존재하는 물체의 특성을 파악하여 그 물체가 속한 범주를 분류하는 것으로 Fig. 2의 첫 번째 열은 합성곱 신경망의 입력으로 고양이의 이미지를 넣어주면 고양이의 라벨 값을 출력하는 신경망 구조이다. 이러한 신경망은 일차적으로 물체와 물체가 아닌 영역을 구분 짓는 특성을 학습함으로써 표현력을 갖게 된다. 배경 영역으로부터 물체의 영역을 지역화하는 특성의 신경망 가중치는 얼굴의 특징점의 위치 정보를 해석하고 얼굴 요소를 지역화하는 것에 유용하게 이용된다.

프로포잘 네트워크를 학습하기 위해 얼굴 특징점의 위치 좌표를 이용하며 각각의 위치 좌표를 순차적으로 연결(concatenate)시켜 1차원의 벡터(vector)를 형성한다. 예측되는 위치 좌표와 목적 위치 좌표의 유클리디언 거리(Euclidean distance)를 최소화하는 손실함수(loss function)을 다음과 같이 정의한다.

여기에서, Nbatch는 미니 배치(mini-batch)의 크기를 의미하며, Ql은 얼굴 특징점의 총 개수, 은 예측되는 얼굴 특징점의 위치 좌표 그리고 은 목적 얼굴 특징점의 위치 좌표이다. 얼굴 특징점의 집합은 의 벡터 형태로 정의된다. 총 41개의 얼굴 특징점 중에서 오른쪽 눈, 왼쪽 눈, 코 그리고 입을 지역화하기 위해 각각 6, 6, 9, 그리고 21개의 얼굴 특징점을 사용한다. 수식(1)의 손실함수를 최소화하기 위해 확률적 기울기 하강(stochastic gradient descent)방법을 이용한다. Caffe[12] 라이브러리(library)를 이용하며 초기의 학습 속도(initial learning rate)는 α = 10-8, 가속도(momentum)의 μ = 0.9에 대해 매세대(epoch) 수마다 학습 속도에 γ = 0.96의 값을 곱한다. 인공 신경망 층의 드롭아웃(dropout)의 확률값은 0.5이다.

Fig. 3의 멀티스케일 프로프잘 네트워크는 FCN의 두 번째 합성곱 신경망 층을 기점으로 분기하여 병렬적으로 구성되어 있다. 각각의 스케일에 대해 두 번째 가중치와 통합 층(pooling layer)이 다른 스트라이드(stride)의 크기를 가지며 서로 다른 얼굴 크기에 대해 최적화된 히트맵을 각각 구성한다. 스트라이드의 값이 작을수록 작은 크기의 얼굴을 표현하는 데 적합하고, 그 값이 증가할수록 큰 얼굴 크기를 잘 표현할 수 있다. 일반적으로 합성곱 신경망의 표현력은 낮은 층에서는 간단한 테두리(edge)와 같은 특징을 추출하고, 높은 층으로 이동함으로써 물체의 형상과 같은 복잡한 특징 정보를 표현하게 된다. 이러한 낮은 층에 있는 특징 정보 사이의 높은 유사성을 갖는 특성을 이용하여 앞단의 두 합성곱 신경망 층을 공유하였으며 이는 시스템의 불필요한 계산 복잡도를 낮출 수 있다.

Fig. 3.Proposal network that includes multi-scale fully convolutional network (FCN).

각각의 스케일의 신경망으로부터 출력된 다섯 번째 합성곱 층의 256개의 특징 맵(feature map)을 정규화(normalizing) 및 스케일링(scaling) 과정을 거쳐 히트맵을 얻게 된다. 이 히트맵에 대해 얼굴 영역과 얼굴이 아닌 영역을 잘 구분 짓는 Tmap을 설정하여 멀티스케일의 프로포잘 네트워크의 얼굴 요소 히트맵으로부터 얼굴 영역을 선별할 수 있다.

2.3 얼굴 영역 회귀법을 이용한 디텍션 네트워크(detection network with face bound regression)

멀티스케일의 프로포잘 네트워크로부터 얻은 얼굴 후보 영역에 대해 Fig. 4의 디텍션 네트워크를 통과하게 된다. 이 얼굴 후보 영역은 그 자체로 높은 얼굴 검출 성능을 보인다. 본 절의 디텍션 네트워크는 리콜율(recall rate)과 함께 혹여나 발생할 수 있는 오검출(false-positive)을 줄이는 멀티테스크의 일을 수행함으로써 검출 성능 향상에 기여한다.

Fig. 4.Learning strategy of detection network with face bound regression.

[10,13]는 얼굴 후보 영역을 조정하여 가장 근접한 위치의 ground-truth의 얼굴 영역으로 이동시키는 방법을 제안했다. 그러나 [10]의 방법은 얼굴 후보 영역이 이동할 위치에 대해 각각 영역을 추출하고 그에 대한 확률 값을 계산함으로써 연산 복잡도가 크게 증가한다. 따라서 [13]에서 제시하는 얼굴 영역 회귀법과 얼굴인지 얼굴이 아닌지를 판별하는 분류(classification) 문제를 추가적으로 도입하여 Fig. 4의 네트워크를 통과함으로써 두 문제를 동시에 해결한다.

Fig. 4의 디텍션 네트워크는 네 합성곱 층과 두 인공 신경망 층으로 이루어져 있다. 48 × 48의 입력 이미지가 합성곱 신경망 계층을 통과하여 분류와 얼굴 영역 회귀법의 문제에 대한 값을 제시하며, 얼굴 영역 회귀법 문제에 대해서는 얼굴 영역을 위치에 대해 왼쪽 상단을 (0, 0)으로 하는 x좌표, y좌표, 가로와 세로 길이를 제시한다. 패치(patch) 1은 그 영역이 얼굴 영역을 포함하므로 얼굴 영역으로 판정할 확률 값으로 1과 함께 얼굴 영역의 위치 정보를 제시한다. 패치 2는 얼굴 영역을 포함하지 않으므로 확률 값 0을 제시하고 얼굴 영역의 위치 정보를 무시하는 라벨(label)을 부여한다. 각각에 패치에 대한 라벨 정보를 이용하여 두 손실 함수(loss function)의 합으로 다음의 수식 (4)의 손실 함수를 정의한다.

여기에서, λ는 조정 파라미터(parameter)이다. 수식 (5)의 손실 함수는 얼굴 영역인지 얼굴이 아닌 영역인지를 분류하는 문제를 풀기 위해 교차 엔트로피 함수(cross-entropy loss function)를 도입하고, 얼굴 영역 회귀법 문제는 추정되는 얼굴 영역의 위치 정보와 목적하는 얼굴 영역의 위치 정보의 유클리디언 거리(Euclidean distance)가 최소가 되는 네트워크를 설계한다.

여기에서, Nbatch는 미니 배치(mini-batch)의 크기를 의미하며, Nbound는 얼굴 영역의 위치 정보를 정의하는 행렬의 크기, 은 얼굴 추정되는 확률값, p∈[0,1]은 목적하는 얼굴 영역인지 얼굴 영역이 아닌지에 대한 라벨이다. 또한, 과 l=[x,y,w,h]T는 각각 추정되는 얼굴 영역 위치와 이에 대해 가장 근접한 ground-truth의 얼굴 위치 정보이다. 수식(4)의 손실함수를 최소화하기 위해 확률적 기울기 하강(stochastic gradient descent) 방법을 이용한다. Caffe[12] 라이브러리(library)를 이용하며 초기의 학습 속도(initial learning rate)는 α = 10-5, 가속도(momentum)의 μ = 0.9에 대해 매 세대(epoch) 수마다 학습 속도에 γ = 0.99의 값을 곱한다. 인공 신경망 층의 드롭아웃(dropout)의 확률 값은 0.5이다.

디텍션 네트워크의 성능을 최대화하기 위해 네거티브 예제 마이닝(hard sample mining) 기술을 사용한다. 이 기술은 일반화된 많은 예제를 사용하여 합성곱 신경망을 학습하는 것이 아니라, 목적을 잘 표현하는 소규모의 유익한 예제를 추출하여 특정한 상황에 잘 대처하는 신경망을 학습시키는 기법이다. Fig. 1의 제안하는 방법은 두 단계(two-stage)의 직렬(cascade)로 연결된 구조를 이루고 있기 때문에 두 번째 네트워크가 처리해야할 데이터(data)는 첫 번째 네트워크의 성능과 직접도가 매우 높다. 첫 번째 네트워크가 출력하는 대부분의 얼굴 후보 영역은 얼굴과의 유사도가 매우 높은 패치일 가능성이 크다. AFLW[14] 데이터베이스(database)를 사용하여 5만장의 네거티브 예제를 추출하였고, 얼굴 영역을 포함하는 예제는 40%이하였다. 이 예제를 선별적으로 취득하여 멀티테스크의 디텍션 네트워크의 학습을 위한 데이터베이스로 사용 한다

3. 실험 결과 및 분석

본 장의 실험 환경에서는 학습 및 성능 검증 과정에 사용된 데이터 셋과 얼굴 검출 성능을 평가하기 위한 방법에 대해 기술한다. 3.2 절에서는 얼굴 검출성능과 처리속도를 제시하고 다른 알고리즘과 비교하였다.

3.1 실험 환경

제안하는 합성곱 신경망의 학습과 검출 성능의 검증 과정으로 네 가지의 데이터베이스(database)를 사용하였다. ImageNet2012[15], Large-scale Celeb Faces Attributes (CelebA)[16] 그리고 Annotated Facial Landmarks in the Wild(AFLW)[14]는 신경망의 학습 과정에 사용 하였고, Face Detection Data Set and Benchmark(FDDB)[9]을 이용하여 얼굴 검출 성능을 측정하였다.

이미지 분류(classification) 문제를 다루는 Image Net2012 데이터베이스는 백이십만장의 이미지에 대해 1,000개의 범주(class)를 포함한다. 이 데이터베이스를 이용하여 물체의 포괄적인 특징을 학습하는 합성곱 신경망을 학습시킬 수 있다. 물체가 아닌 영역으로부터 물체인 영역의 특징 정보를 선택적으로 추출하는 합성곱 신경망 계층(convolutional neural network)을 선행 학습된 모델(pre-trained model)로 이용하여 그 위에서 얼굴 검출을 위한 데이터베이스를 학습하였다. CelebA 데이터베이스는 얼굴의 특성 정보를 포함하는 10,177의 인물이 202,599의 이미지에 등장하는 대규모의 이미지 데이터베이스이다. 다섯 개의 얼굴 특징점과 40개의 얼굴의 특성 정보를 포함하며, 본 논문에서는 TCDCN[17]의 얼굴 특징점 추출 알고리즘을 이용하여 확장된 68개의 얼굴 특징점을 추출하고 이중에서 얼굴 요소와 관련된 41개를 선별하여 신경망의 학습을 위해 사용하였다. Fig. 2의 학습된 프로포잘 네트워크(proposal network)에 대해 AFLW 데이터베이스로부터 네거티브 예제 마이닝(hard sample mining) 기술을 이용하여 유용한 예제를 선별적으로 추출하여 Fig. 4의 디텍션 네트워크(detection network)의 학습 데이터(data)로 사용하였다. AFLW는 얼굴 검출 성능 측정을 위해 사용된 FDDB 데이터 셋과 유사한 환경(예: 얼굴의 가림, 포즈 변화, 조명 변화 그리고 다양한 크기의 얼굴)을 지닌 데이터베이스로 얼굴 검출의 학습 데이터로 많이 사용된다. 21,123의 이미지에 24,386의 얼굴이 포함되어 있다.

얼굴 검출 성능을 측정하기 위해 사용하는 FDDB 데 터베이스는 5,171의 얼굴이 2,845의 이미지에 포함되어 있으며, 20×20픽셀(pixel) 이하의 얼굴의 크기는 제외한다[9]. 이 데이터베이스의 얼굴의 위치 정보가 타원형의 형태로 제공되므로 그 타원과 공유하는 면적이 최대가 되는 가장 작은 크기의 사각형(rectangular)의 형태로 ground-truth를 재정의 하였다. 또한, AFLW와 FDDB의 ground-truth의 미스매치(mismatch) 문제를 다루기 위해 얼굴 검출기로부터 출력되는 얼굴 영역의 세로길이를 30% 확장하였다.

얼굴 검출기로부터 출력된 얼굴 영역과 groundtruth 사이의 매칭(matching)을 판별하기 위해 두 영역의 교집합과 합집합의 비율(intersection over union: IOU)을 다음 식과 같이 정의한다.

여기에서, Dp와 Aq는 pth의 검출된 얼굴 영역과 가장 근접한 qth의 ground-truth 얼굴 영역으로 정의된다. 수식 (7)을 이용하여 수식 (8)과 (9)의 얼굴 검출 성능 지표를 정의하며, L은 ground-truth 얼굴 영역의 집합 그리고 E는 검출된 얼굴 영역의 집합이다. 수식 (8)의 리콜(recall)은 ground-truth 얼굴 영역 중에 몇 개의 얼굴 영역을 검출하였는지에 대한 지표이며, 정확도(precision)은 검출된 얼굴 영역 중에 몇 개의 얼굴 영역이 ground-truth에 속하는지를 제시한다.

여기에서, δ(·)는 델타(delta) 함수로서 M(Di,Ai) > 0.5이면 1로 판정한다.

3.2 얼굴 검출 성능 및 처리 속도

제안하는 방법의 검출 성능 및 처리 속도를 검증하기 위해 다른 얼굴 검출기의 성능과 비교 실험을 수행하였다: (1) Viola-Jones[1], (2) Pico[18], Zhan et al.[19], XZJY[20] 그리고 NPDFace[21]. Table 1에서는 오검출(false positive)의 수가 517 (정확도=90 (%))의 조건에서 리콜을 측정하였으며, 다른 알고리즘의 최대 성능 보다 1.38%의 추가 이득을 보였다. 이는 제안하는 방법이 얼굴 요소 정보를 이용하여 얼굴의 포즈 또는 가림에 강인한 효과를 보일뿐만 아니라 두 번째 네트워크의 얼굴 영역 회귀법이 얼굴 영역을 정교하게 매칭(matching)함으로써 검출 성능 향상에 기여하였다.

Table 1.Comparison of detection rate with state-of-the-art techniques on FDDB dataset

Table 2에서는 제안하는 방법의 처리속도를 제시한다. VGA의 영상에 대해 평균적으로 다섯 명의 사람이 등장하는 환경으로서, 동일한 조건에서 다른 알고리즘과 처리 속도를 비교하였다. 3.40GHz Intel Core i7-3770, NVIDIA GeForce GTX 980Ti의 MATLAB 환경에서 검출 가능한 최소 의 얼굴 크기를 20×20로 설정하였다. 고속의 알고리즘으로 알려진 비올라 존스(Viola-Jones) 알고리즘과 NPDFace 알고리즘보다 빠른 처리 속도를 보일뿐만 아니라 딥러닝 기반의 Zhan et al. 알고리즘과 비교해서도 우수한 성능을 보였다. Adaboost를 이용하지 않은 것과 비교해서 대략 500배 그리고 Adaboost를 이용한 것과 비교해서도 15배 정도의 처리 속도에서 이득을 보았다. 제안하는 방법에서 히트맵을 이용하여 얼굴 영역이 아니라고 판단되는 영역을 앞단에서 빠르게 제거 할뿐만 아니라 완전한 합성곱 신경망(fully convolutional network)를 이용하여 불필요한 처리과정을 배제하였다. 또한 멀티스케일 FCN에서 간단한 특징을 학습하는 낮은 계층을 공유함으로써 연산복잡도를 추가적으로 낮추었다. 이는 본 논문에서 제안하는 방법이 낮은 연산 복잡도에 의해 설계되었을 뿐만 아니라 table 2를 통하여 실험적 수치와 함께 이를 검증하였다.

Table 2.Comparison of detection time with the competitive techniques on image size 640×480

4. 결 론

본 논문에서는 와일드 환경에서의 얼굴 검출을 위해서 프로포잘 네트워크와 디텍션 네트워크로 구성된 두 단계의 시스템(two-stage system)을 제안하였다. 멀티스케일 프로포잘 네트워크(multi-scale proposal network)는 얼굴 요소 히트맵을 표현한다. 검출 네트워크(detection network)는 멀티테스크(multi-task)로서 분류 문제와 얼굴 영역 회귀법 문제를 풀며, 얼굴 영역을 잘 판별하고 이 얼굴 영역의 위치를 조정해 주는 역할을 하였다. 추가적으로, 네거티브 예제 마이닝(hard sample mining) 기술을 사용하여 두 번째 과정의 성능을 극대화 하였다. 제안하는 방법은 얼굴 검출 성능과 처리 속도 측면에서 우수한 성능을 보였다. 표준화된 FDDB 데이터베이스(database)에 대해 우수한 다른 알고리즘 보다 1.38%의 추가 이득을 달성하였다. 또한, 동일한 실험 환경에서 가장 낮은 처리 시간을 기록하였다.

참고문헌

P. Viola and M.J. Jones, "Robust Real-time Face Detection," International Journal of Computer Vision, Vol. 57, No. 2, pp. 137-154, 2004. https://doi.org/10.1023/B:VISI.0000013087.49260.fb
M.K. Celebi, M.E. Celebi, and B. Smolka, Advances in Face Detection and Facial Image Analysis, Springer International Publishing, Switzerland, 2016.
S.H. Lee, J.I. Moon, H.-I. Kim, and Y.M. Ro. “Face Detection Using Multi-level Features for Privacy Protection in Large-scale Surveillance Video," Journal of Korea Multimedia Society, Vol. 18, No. 11, pp. 1268-1280, 2015. https://doi.org/10.9717/kmms.2015.18.11.1268
R. Ranjan, V.M. Patel, and R. Chellappa, "A Deep Pyramid Deformable Part Model for Face Detection," Proceeding of IEEE Conference on Biometrics Theory, Applications and Systems, pp. 1-8, 2015.
P.F. Felzenszwalb, R.B. Girshick, D. Mc Allester, and D. Ramanan "Object Detection with Discriminatively Trained Part Based Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1627-1645, 2010. https://doi.org/10.1109/TPAMI.2009.167
J. Yan, Z. Lei, L.Wen, and S.Z. Li, "The Fastest Deformable Part Model for Object Detection," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 2497-2504, 2014.
J.T. Lee, H. Kang, and K.-T. Lim. "Moving Shadow Detection using Deep Learning and Markov Random Field," Journal of Korea Multimedia Society, Vol. 18, No. 12, pp. 1432-1438, 2015. https://doi.org/10.9717/kmms.2015.18.12.1432
C.H. Lampert, M.B. Blaschko, and T. Hofmann. "Beyond Sliding Windows: Object Localization by Efficient Subwindow Search," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-8, 2008.
V. Jain, Vidit, and E. Learned-Miller, FDDB: A Benchmark for Face Detection in Unconstrained Settings, University of Massachusetts, Technical Report, UM-CS-2010-009, 2010.
H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, "A Convolutional Neural Network Cascade for Face Detection," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 5325-5334, 2015.
A. Krizhevsky, I. Sutskever, and G.E. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Proceeding of Advances in Neural Information Processing Systems, pp. 1097-1105, 2012.
Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, et. al, "Caffe: Convolutional Architecture for Fast Feature Embedding," Proceeding of ACM International Conference on Multimedia, pp. 675-678, 2014.
D. Wang, J. Ynag, and Q. Liu, "Hierarchical Convolutional Neural Network for Face Detection," Proceeding of International Conference on Image and Graphics, pp. 373-384, 2015.
M. Köstinger, P. Wohlhart, P.M. Roth, and H. Bischof, "Annotated Facial Landmarks in the Wild: A Large-scale, Real-world Database for Facial Landmark Localization," Proceeding of IEEE International Conference on Computer Vision, pp. 2144-2151, 2011.
J. Deng, W. Dong, R. Socher, L.J. Li, K. Li, and L. FeiFei, "Imagenet: A Large-scale Hierarchical Image Database," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255, 2009.
Z. Liu, P. Luo, X. Wang, and X. Tang. "Deep Learning Face Attributes in the Wild," Proceeding of IEEE International Conference on Computer Vision, pp. 3730-3738, 2015.
Z. Zhang, P. Luo, C.C. Loy, and X. Tang, "Facial Landmark Detection by Deep Multitask Learning," Proceeding of European Conference on Computer Vision, pp. 94-108, 2014.
N. Markus, M. Frljak, I.S. Pandzic, J. Ahlberg and R. Forchheimer, "Object Detection with Pixel Intensity Comparisons Organized in Decision Trees," ArXiv Preprint ArXiv:1305. 4537, 2014.
S. Zhan, Q.Q. Tao, and X.H. Li. "Face Detection Using Representation Learning," Journal of Neurocomputing, Vol. 187, No. C, pp. 19-26, 2015.
X. Shen, Z. Lin, J. Brandt, and Y. Wu. "Detecting and Aligning Faces by Image Retrieval," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 3460-3467, 2013.
S. Liao, A.K. Jain, and S.Z. Li, "A Fast and Accurate Unconstrained Face Detector," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 38, No. 2, pp. 211-223, 2015. https://doi.org/10.1109/TPAMI.2015.2448075

피인용 문헌

Classification of Leukemia Disease in Peripheral Blood Cell Images Using Convolutional Neural Network vol.21, pp.10, 2016, https://doi.org/10.9717/kmms.2018.21.10.1150
딥러닝 기반 표고버섯 병해충 이미지 분석에 관한 연구 vol.23, pp.1, 2020, https://doi.org/10.9717/kmms.2020.23.1.050
Transposed Convolutional Layer 기반 Stacked Hourglass Network를 이용한 얼굴 특징점 검출에 관한 연구 vol.24, pp.8, 2016, https://doi.org/10.9717/kmms.2021.24.8.1020

한국멀티미디어학회논문지 (Journal of Korea Multimedia Society)

CNN 기반의 와일드 환경에 강인한 고속 얼굴 검출 방법

Fast and Robust Face Detection based on CNN in Wild Environment

초록

키워드

1. 서 론

2. 제안하는 방법

2.1 제안하는 알고리즘의 개요

2.2 얼굴 요소 히트맵의 멀티스케일 프로포잘 네트워크(multi-scale proposal network for facial component heat map)

2.3 얼굴 영역 회귀법을 이용한 디텍션 네트워크(detection network with face bound regression)

3. 실험 결과 및 분석

3.1 실험 환경

3.2 얼굴 검출 성능 및 처리 속도

4. 결 론

참고문헌

피인용 문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)