1. 서 론
최근 감시와 보안을 목적으로 CCTV 설치가 활발해지면서 지능형 영상분석의 수요가 늘어남에 따라 컴퓨터 비전을 이용한 자동화 응용범위가 증가하고 있다. 객체 검출과 객체 인식은 컴퓨터 비전을 이용한 지능형 영상 감시 시스템의 구축을 위한 필수적 기술로 추적 및 안전 감시 등에서 광범위하게 응용될 수 있다. 그러나 객체의 검출과 객체 인식은 영상내의 객체의 형태 변화와 조명변화, 장애물에 의한 가려짐 등에 의해 매우 어려운 도전적인 문제이다.
객체를 정확하게 인식하기 위해서는 신뢰성이 높은 검출을 수행하여야한다. 신뢰성이 없는 검출은 다음 단계인 객체 인식을 수행 할 수 없기 때문이다. 기존의 객체를 검출 위한 방법은 인접된 영상간의 차분 혹은 영상과 추정된 배경과의 차분을 통해 움직임 변화에 대한 영역으로부터 객체를 검출하는 영상 간 차분 방법과, 영상 내에서 슬라이딩 윈도우를 설정하여 움직이면서 그 속에서 특징을 계산하여 객체를 검출하는 특징을 이용하는 검출 방법 등이 있다[1]. 영상 간의 차분 방법은 구현이 간단하고 연산이 적다는 장점이 있지만, 객체가 움직이지 않거나 움직임 변화가 없고 갑자기 조명이 크게 변하는 경우 객체를 정확하게 검출하지 못하게 되는 단점이 있다. 이를 보완하고자 적응적 배경 차분 방법 등이 사용되기도 한다. 한편, 슬라이딩 윈도우 내의 특징을 이용하는 객체 검출방법을 구현하기 위해서는 먼저 검출 대상인 객체의 특성을 잘 표현할 수 있는 특징을 추출하여야 하고, 다음으로 추출된 특징을 학습하는 분류기를 사용하여 검출 대상 객체인지 아닌지 판정하여야 한다.
본 논문에서는 지능형 영상 감시를 위해 감시 대상인 객체를 보행자로 초점을 맞춰, 앞에서 설명한 특징을 이용한 검출 방법으로 보행자를 검출하는 시스템 설계 방법을 제안한다. 보행자는 도로위에서 길을 걷고 있는 사람을 말하며 움직임에 대한 정해진 방향이 없고 옷차림 및 색상과 형태도 다양하다. 현재 보행자 검출에 대한 연구는 CCTV를 이용한 영상 감시 시스템과 지능형 자동차에서 보행자 보호시스템 등에 적용되고 있으며 많은 연구가 진행 중이다.
보행자 검출을 위한 특징 추출 방법으로 단순 웨이블릿 기반 Harr-like특징, 기울기의 방향성을 이용한 HOG (Histogram of Oriented Gradient) 특징, 빛의 영향에 둔감한 MCT(The modified Census transform) 방법 등이 있고 분류기로는 SVM(Support Vector Machine), NN(Neural Network), Adaboost 알고리즘 등이 많이 선택 되고 있다[1]. 이중 2005년 Dalal과 Triggs에 의해 제안된 HOG 특징과 SVM 분류기를 이용한 보행자 검출 방법이 가장 대표적이며, 앞에서 설명한 다른 특징 추출 방법과 분류기의 성능을 비교하였을 때 뛰어난 성능을 보여준다
Dalal이 제안한 HOG[2, 5] 특징은 인접 픽셀들과의 기울기를 이용하여 크기와 방향성을 계산하여 히스토그램을 구성한다. 히스토그램으로 구성하여 특징을 추출하기 때문에 조명 및 기하학적 변화에 강인하며, 객체의 크기나 모양이 변해도 보행자를 검출 하는데 문제가 없다는 장점이 있지만, 특징의 차원 수가 입력 영상의 크기 따라 정해지기 때문에 분류기에 학습한 마스크와 검출 시 사용하는 마스크 크기는 동일해야 한다는 제약조건이 붙는다. 또한, HOG 특징은 특징 차원 수가 높아 연산이 많고 불필요한 차원들로 인해 검출률 저하와 처리속도가 느리다는 문제점이 있다.
따라서 본 논문에서는 지능형 영상 감시를 위한 보행자 검출 시스템을 설계하기 위해 기존의 HOG 특징을 사용하되 불필요한 높은 차원에 의한 연산량을 줄이고 검출률을 향상시키기 위해 PCA(Principal Component Analysis) 주성분분석법을 사용하여 먼저 차원을 축소한다[6]. 그리고 기존 분류기로 선택한 SVM 대신 지능형 패턴분류기인 다항식 기반 RBFNN(Radial Basis Function Neural Network) 패턴분류기[4, 7, 8]를 이용하여 저차원으로 축소된 HOG-PCA 특징을 학습하고 보행자를 검출한다.
본 논문 구성은 다음과 같다. 1장 서론에서는 본 논문의 배경으로 신뢰성이 높은 검출를 수행하기 위한 기존 연구 방법과 제안하는 방법을 기술하였고 2장에서는 제안하는 분류기를 학습하기 위한 전처리 과정으로서 입력 영상으로부터 HOG 특징 추출과 PCA를 통한 차원 축소에 대해 설명한다. 3장에서는 축소된 HOG 특징에서 보행자를 검출하기 위한 다항식 기반 RBFNNs 패턴분류기 설계 및 학습 방법에 대해 설명하고, 4장에서는 2장, 3장에서 기술한 내용을 토대로 HOG-PCA 특징을 이용한 pRBFNNs 보행자 검출 시스템의 실험 방법에 대해 기술하고 기존 연구의 보행자 검출률과 제안하는 분류기의 검출률을 비교 평가 하였다. 마지막으로 5장에서는 본 연구의 결론과 향후 연구 방향에 대하여 설명한다.
2. 보행자 검출을 위한 전처리 과정
본 논문에서 제안하는 보행자를 검출하기 위한 전체적인 과정은 그림 1과 같다. 본 장에서는 보행자를 검출하기 위해 전처리 단계로서 입력 영상으로부터 HOG알고리즘을 이용하여 HOG특징 추출방법과 고차원의 특징을 저차원으로 축소하기 위한 PCA알고리즘에 대해 설명한다.
그림 1보행자 검출 시스템 전체 구성 Fig. 1 Flow of Pedestrian Detection System
2.1 근사화된 기울기 히스토그램 HOG(Histogram of Oriented Gradients) 알고리즘
본 논문에서는 입력 영상으로부터 객체의 모양과 특징을 검출하기 위해 특징 추출 방법으로 HOG 알고리즘을 이용한다[2]. HOG는 Dalal과 Triggs가 2005년 CVPR(Computer vision and pattern Recognition) 논문에서 보행자를 검출하기 위해 제안된 특징으로 국소영역에서 근접화소들 간의 밝기 차이를 이용하여 기울기와 방향성을 구하고 이를 히스토그램으로 구성하여 벡터로 나타낸다. 이 HOG 특징은 히스토그램으로 구성하기 때문에 조명의 영향에 민감하지 않고, 기하학적 변화에 강한 특징을 가진다.
HOG는 근접화소들 간의 기울기과 방향성을 이용하기 특징을 추출하기에 앞서 입력영상에서 식 (1)을 이용하여 x축 y축의 기울기 fx , fy을 구하고, 기울기의 크기 S는 식 (2)를 통해 구할 수 있다. 그리고 식 (3)는 각 축의 fx , fy와 크기 S를 이용하여 기울기의 방향성 θ를 구한다[3, 4].
그림 2의 (b)는 입력영상 I(x,y)에 대한 각 축의 기울기로 fx(x,y), fy(x,y)으로 나타내며, (c)는 기울기 크기S(x,y)을 나타내고 (d)는 기울기의 방향성 θ(x,y)을 입력 영상과 함께 나타낸 것이다.
그림 2기울기 크기와 방향성 이미지 Fig. 2 Image of Gradient Size and Direction
기울기의 방향성과 크기를 계산 후 히스토그램을 구성하기 전에 Cell과 Block을 정의하여 입력 영상을 분할한다. 그림 3은 입력영상에서의 C×C의 Cell 크기와 B×B의 Block으로 구성한 영상분할을 나타내며, 본 논문에서는 Dalal이 제안한 기존 보행자 검출 연구에서 Cell은 8×8 픽셀, Block은 2×2 셀로 동일하게 구성하였다.
그림 3Cell과 Block 이미지 분할 Fig. 3 Image Segmentation of Cell and Block
히스토그램을 구성할 때 기울기의 방향 성분을 이용하여 bin을 나타내는데, 기울기의 방향 성분은 크게 0~180°, 0~360°으로 나타내며, 보통 0~180°를 20° 만큼 나눈 9개의 bin으로 구성한다. 본 논문에서 히스토그램은 그림 4 (c)와 같이 한 Cell에서 하나씩 생성하고, 이 히스토그램은 0~180°의 기울기의 방향성분을 이용한 9개의 bin을 생성한다. 그리고 그림 4 (a)와 같이 셀 내부에 bin에 해당하는 기울기 크기를 누적시킨다. 또한, 크기를 누적 시키는 과정에서 Aliasing에 의한 정보손실을 줄이기 위해 선형 보간 방식을 사용하였고 그 예로 그림 4 (b)의 95° 방향성을 가진 기울기 크기에 인접하고 있는 bin 90°과 110°에 나누어서 누적한다[4].
그림 4Cell 내부에서의 HOG 특징과 Block 내부의 히스토그램 Fig. 4 HOG Features Inside the Cell and Histograms Inside the Block
C×C 픽셀 크기의 Cell 내부 히스토그램은 B×B 셀 크기의 Block으로 구성하고, 블록에 대하여 정규화를 수행 한다. 각 블록에 대한 정규화 방법은 norm, L1-norm. L1Sqrt, L2-norm, L2Sqrt, L2Hys 등 많은 방법이 있다. 본 논문에서는 L2-norm을 이용하여 정규화를 수행하였고 영상 내 분할한 블록에 대해 정규화 된 히스토그램을 구하는 과정을 식 (4)-(6)으로 나타내었다. 여기서 Block은 2×2 Cell로 구성되어 있고 Cell 하나당 k = 9개 bin이 있다고 가정하였다. v는 주어진 블록에 대해 정규화 된 히스토그램 특징 벡터를 나타내며, vi는 i번째 Block의 정규화 된 특징 벡터, vc는 Cell의 특징 벡터, vb는 Block 내 특징 벡터를 나타낸다.
마지막으로 각 Block의 정규화 된 히스토그램을 하나로 병합하여 정규환 된 HOG 특징 벡터 H를 생성한다. 각 Block당 정규화 된 특징벡터 v는 36(=2×2×9)개의 차원을 가지고, 그림 3에 보인 바와 같이, Block은 셀 하나의 크기만큼 슬라이딩하므로 128×64크기의 입력 영상에서 105(=15×7)개의 Block이 만들어지므로 HOG 특징 벡터는 3,780의 차원으로 생성된다.
2.2 PCA(Principal Component Analysis) 알고리즘을 이용한 특징 데이터의 차원 축소
영상 기반의 보행자 검출에서 중요한 요소는 높은 검출률과 빠른 인식 속도이다. 앞 절에서 설명한 HOG 특징은 조명변화와 보행자의 옷차림 및 색상과 형태에 대한 영향이 적기에 보행자 검출에 널리 사용되고 있다. 하지만, HOG 특징은 입력 영상에서 Cell과 Block의 크기에 따라 특징 차원 수는 기하급수적으로 증가하기 때문에 연산이 많고 불필요한 특징 차원에 대해서도 연산하기 때문에 처리 속도가 느리다는 단점이 있다. 이는 차원이 증가함에 따라 생기는 차원의 저주와 같으며, 이러한 문제 해결을 위해 앞 절에서 추출한 HOG 특징을 제안하는 분류기에 학습하기 전에 주성분 분석법인 PCA 알고리즘을 이용하여 고차원의 특징 저차원으로 축소한다[3, 4].
PCA는 대표적인 선형변환 특징추출 방법으로 데이터의 공분산 행렬을 이용하여 구한 특징데이터를 입력 데이터의 차원보다 작은 값의 차원을 이용함으로서 실제 입력보다 작은 양의 특징을 사용하는 방법이다. 주성분 분석법의 가장 큰 목적은 변환 후의 특징데이터가 변환 전의 실제 데이터의 정보를 최대한 유지하도록 하는 것이며, 주성분 분석법을 이용한 차원 축소 과정은 아래 단계와 같다.
[Step 1] 차원 축소를 위한 변환행렬 W을 구하기 위한 학습 집합을 구성
학습 영상의 개수가 M개 일 때, 각 영상의 HOG 벡터 H(=1×3780)를 식 (7)과 같이 구성한다.
[Step 2] 평균 벡터를 계산
학습 집합(X)으로부터 식 (8)을 이용하여 평균 벡터 (Ψ)를 계산한다.
[Step 3] 학습 집합을 원점의 중심으로 이동
입력 특징 벡터와 평균 벡터와의 차하여 모든 입력 특징을 원점 중심으로 이동한다.
여기서 i = 1,⋯, M으로 i번째 영상의 HOG 특징 벡터이다.
[Step 4] 중심으로 이동 된 학습 집합 내 벡터에서 공분산 행렬 (C)을 계산
A는 3780×M 행렬이 되며, 공분산 행렬 C는 3780×3780의 고차 행렬이 된다.
[Step 5] 고유치 분석을 통한 고유치 행렬 λ와 고유벡터 E를 계산 후 가장 큰 고유값을 갖는 M'개만을 선택
[Step 6] 선택된 고유치에 대응되는 고유벡터를 가지는 변환행렬 W=[w1,w2,⋯,wM']에서 선형변환에 의한 축소된 특징 데이터를 추출한다.
3. pRBFNNs 패턴분류기 기반 보행자 검출 시스템 설계
본 3장에서는 2장에서 설명한 입력 영상으로부터 계산한 HOG-PCA 특징 데이터 데이터를 입력으로 사용하여 보행자 검출 시스템의 패턴분류기 구조와 설계 방법을 설명한다. 패턴 분류기는 다항식 방사형 기저 함수 신경망을 사용하며 제안하는 RBFNNs는 빠른 학습시간, 일반화 그리고 단순화의 특징을 가지며 구조 동정 방법은 전반부의 활성함수를 기존 가우시안이 아닌 FCM(Fuzzy C-Means)클러스터링을 사용하고 후반부에서 최소자승법(Least Square Estimator)을 사용한다[6, 7].
3.1 다항식 기반 RBFNNs 모델 설계
본 절에서는 다항식 기반 RBFNNs 패턴분류기의 설계에 대해 설명한다. RBFNNs는 신경회로망의 구조를 기반으로 하여 입력층, 은닉층, 출력층이 모두 1층으로 구성된 3층 구조이다. 입력층에서는 각 노드마다 입력변수의 개수만큼 활성함수가 존재하며, 활성함수는 방사형 기저함수의 형태를 하고 있고, 주로 가우시안 함수를 사용하고 있다. 은닉층에서 활성함수로 변환된 출력은 은닉층과 출력층 사이의 연결가중치 값과 곱해져 출력층의 최종 출력으로 얻어지며, 이때 연결가중치의 값은 상수를 사용한다. 기본적인 RBFNNs의 구조는 그림 5(a)와 같다.
그림 5다항식 기반 RBFNNs의 구조 Fig. 5 Architecture of polynomial based RBFNNs
본 논문에서 제안한 다항식 기반 RBFNNs는 기본적인 RBFNNs와 구조적 모듈로는 동일한 입력층, 은닉층, 출력층 이 3층 구조를 사용하나, 기능적 모듈로서 조건부, 추론부, 결론부로 3가지로 구분 된다. 또한 기존의 은닉층이 조건부에서 활성함수로 사용하였던 가우시안 함수 대신 FCM(Fuzzy C-Means)클러스터링에서 구해지는 적합도 값을 사용함으로써 입력 데이터의 특성을 좀 더 잘 반영할 수 있도록 개선하였다. 또한 결론부의 연결가중치를 상수항에서 1차식 선형식(Linear)과 2차 선형식(Quadratic), 그리고 변형된 2차 선형식(Modified Quadratic)과 같은 다항식의 형태로 확장하여 사용한다는 특징을 가진다.
[Type 1] 1차 선형 추론(Linear)
[Type 2] 2차 선형 추론(Quadratic)
[Type 3] 변형된 2차 선형 추론(Modified Quadratic)
여기서 x = [x1,x2,...,xk], k는 입력변수의 수, Rj는 j번째 퍼지 규칙(j=1,...,c), c는 퍼지 규칙 수이며, fj = (x1,..., xk)는 j번째 규칙에 대한 후반부로서 j번째 퍼지 규칙에 대한 로컬 모델이며 모델의 출력은 아래 식처럼 구해진다.
이와 같이 다항식 형태의 연결가중치를 사용함으로써 아래 식의 퍼지 규칙 표현과 같은 언어적 관점에서의 해석이 가능하다.
여기서 x는 입력벡터, Ai는 FCM 클러스터링에 의한 i(i = 1,⋯,c)번째 그룹의 소속 함수, fji(x)는 j(j = 1,⋯,s)번째 출력에 대한 i번째 퍼지 규칙의 다항식이다. FCM 클러스터링을 이용함으로써 네트워크 측면에서는 활성 함수를 언어적 측면에서는 소속 함수의 기능을 수행한다. “Then”이후 결론부의 다항식은 네트워크 연결가중치로, 퍼지 규칙의 로컬 모델로 동작된다. 추론부에서 네트워크의 최종출력은 퍼지 규칙의 추론 결과로써 구해진다. 이와 같이 개선된 RBFNNs 구조는 퍼지 규칙을 기반으로 한 네트워크 구조를 가지며, 조건부, 결론부, 추론부와 같이 세 가지 기능적 모듈로 분리되어 동작한다. 이러한 다항식 RBFNNs의 구조 동정과정인 전반부 동정과 후반부 동정 방법에 대해서 설명한다.
3.2 전반부 동정 과정 : FCM (Fuzzy C-Means) 클러스터링
본 절에서는 RBFNNs의 전반부 동정을 위하여 기존 가우시안 함수 대신 FCM 클러스터링 알고리즘[8]을 사용하였다. FCM(Fuzzy C-Means)클러스터링 알고리즘은 비슷한 패턴, 속성, 형태 등의 기준을 통해 데이터를 분류하는 알고리즘으로, 데이터와 각 클러스터와의 거리를 기준으로 소속정도를 측정하여 데이터를 분류한다. 이는 활성 함수의 적합도 개념과 동일해 다항식 기반 RBFNNs 모델의 은닉층 활성함수 형태를 표현할 수 있다. 아래 단계를 통해 FCM 전반부 동정은 수행된다.
[Type 1] 클러스터의 개수를 결정하고, 소속행렬 U(r)을 초기화한다.
[Type 2] U(r)값을 기반으로 각각의 클러스터에 대한 중심값과 소속함수의 값을 구한다.
[Type 3] 각각의 클러스터 중심과 데이터와의 거리를 계산하여 새로운 소속행렬을 생성한다.
[Type 4] 오차가 허용범위 안에 도달하면 종료하고, 그렇지 않으면 [Step 2]로 돌아간다.
3.3 후반부 동정 과정 : 최소자승법(Least Square Estimator)
후반부 다항식의 파라미터 계수는 Least Square Estimator (LSE) 학습방법을 사용하여 모델을 설계한다. LSE는 오차제곱의 합이 최소가 되도록 계수를 추정하며 후반부 다항식들의 계수를 한 번에 구하기 때문에 전역 모델의 학습에 수행 가능하다. LSE에서의 성능평가함수 QL을 행렬 형식으로 표현하면 식 (25)와 같다.
여기서 A는 후반부 다항식 파라미터 계수, Y는 출력 데이터, X는 FCM의 소속행렬이 곱해진 입력데이터의 행렬로 x는 입력 행렬, u는 소속행렬을 의미한다. 후반부 구조가 Linear일 경우 X, Y, A 행렬은 다음과 같은 식 (26)으로 표현 되며, 여기서 m은 데이터의 수이며, k는 입력수의 수, c는 규칙 수(클러스터 수) 가 된다.
이에 전역 모델에 대한 행렬은 식 (27)과 같으며 후반부 다항식의 계수행렬 A는 확장행렬을 구하고 가우스 소거법(Gaussian elimination)을 이용하여 구하거나 식 (28)과 같이 역행렬에 의해 구해진다.
4. 실험 및 결과고찰
4.1 실험의 전체 개요
본 논문에서는 지능형 영상 감시를 위해 제안하는 HOG-PCA 특징을 이용한 pRBFNNs 패턴분류기 설계하여 보행자 검출을 수행한다. 그림 6은 본 실험의 전체적인 흐름을 나타내며 제안하는 분류기를 학습하기 위해 사용한 데이터는 INRIA Person Dataset[5]을 이용한다. 실험에 사용한 INRIA 데이터는 640×480 크기의 보행자 이미지 902장과 640×480 크기의 비보행자 이미지 1,218장으로 총 2,120장의 이미지들로 구성되어있다. 실험을 진행하기 전에 기존의 연구의 결과와 비교를 하기 위해 학습 및 테스트 이미지를 Dalal이 제안한 방법의 이미지를 사용하며 그 방법은 다음 절에서 설명한다. 본 실험은 이미지 당 HOG 특징을 구하고 PCA 알고리즘을 이용하여 고차원의 특징을 저차원으로 축소한다. HOG 특징을 추출할 때 사용되는 파라미터는 기존의 보행자 검출 연구에 사용한 파라미터를 동일하게 사용하였으며, PCA를 통한 차원 축소는 30, 40, 50차원으로 축소하여 제안하는 pRBFNNs 패턴분류기를 학습하고 테스트 이미지를 통해 보행자 검출률을 산출하여 성능을 나타낸다. 마지막으로 임의 크기의 입력 이미지를 제안한 분류기를 통해 보행자 검출을 확인한다.
그림 6pRBFNNs 패턴분류기 설계 및 실험 과정 Fig. 6 Design of pRBFNNs Pattern Classifier and Overview of Experiment
4.2 실험 데이터 구성
본 논문에서 제안하는 pRBFNNs 패턴분류기를 학습과 평가하기 위해 INRIA Dataset을 기반으로 실험에 사용한 데이터 구성은 640×480 크기의 보행자, 비보행자 이미지를 분류기 학습을 하기 위한 128×64의 Window 크기로 분할하여 기존의 연구인 Dalal이 제안한 Dataset과 본 실험에서 제안하는 Dataset으로 Case 1과 Case2로 구성하여 실험을 진행 하였다. Window 크기로 분할 시 보행자 이미지인 경우 보행자라고 판단 할 수 있는 위치를 Window 크기로 분할하였으며, 실험데이터 구성에 대한 상세한 내용은 표 1과 같다.
표 1INRIA Person Dataset Table 1 INRIA Person Dataset
그림 7은 표 1의 INRIA Person Dataset에서 Dalal의 제안한 이미지 일부를 나타낸 것으로 (a), (b)는 학습을 위한 보행자 이미지, 비보행자 이미지들이고 (c), (d)는 테스트를 위한 보행자 이미지, 비 보행자 이미지들을 모아둔 것이다.
그림 7INRIA Person Dataset에서 학습 및 테스트 이미지 Fig. 7 Training and Testing Images in INRIA Person Dataset
4.3 실험 방법
본 논문에서 제안하는 HOG-PCA 특징을 이용한 pRBFNNs 패턴분류기를 보행자 검출 시스템을 구현하기 위해 Matlab2014a를 이용하여 기존 연구와의 비교평가를 수행 하였다. 제안된 분류기의 성능을 평가를 위해 식 (29)의 오분류 비율(misclassification rate)을 이용하여 성능 지수로 나타내었다.
입력 영상으로부터 HOG 특징을 추출하기 위한 파라미터는 Dalal이 제안한 기존 보행자 검출에 사용한 파라미터를 동일하게 설정하였고 해당 파라미터 정보는 아래 표 2과 같다.
표 2HOG 특징 추출 설정 파라미터 Table 2 Setting of HOG feature extraction parameters
다음 아래 표 3는 제안하는 패턴분류기의 설계를 위한 설정 파라미터를 나타낸다.
표 3pRBFNNs 패턴분류기 파라미터 Table 3 Setting of pRBFNNs Pattern Classifier parameters
제안한 분류기를 Dataset로 학습 통해 설계된 보행자 검출 시스템은 다양한 임의 크기의 입력 이미지에서 보행자를 검출하기 위해 영상에서 윈도우를 슬라이딩 방식으로 이동 시키면서 보행자를 검출한다. 이 이미지에서 검출하려는 보행자의 크기는 각각 다르기 때문에 탐색 윈도우를 1.2배씩 증가 하여 여러 개의 윈도우의 크기의 보행자를 후보 영역을 검출한다. 그림 8은 여러 개의 윈도우 크기를 슬라이딩 하여 보행자를 검출하는 과정을 나타내며, 그림 9는 여러 개의 윈도우 크기에서 검출한 보행자 후보 영역을 하나로 합치기 위해 비최대 억제 기법 (NMS: non-maximum suppression)을 이용하여 검출된 보행자를 나타낸다
그림 8윈도우 슬라이딩 방식의 탐색 Fig. 8 Searching by Window Sliding
그림 9여러 개의 후보 영역에서 NMS를 이용한 보행자 검출 Fig. 9 Pedestrian Detection Using NMS from Multiple Overlapping Bounding Boxes
4.4 실험 결과
본 논문에서는 지능형 영상 감시를 위해 HOG-PCA 특징을 이용한 pRBFNNs 패턴분류기 기반 보행자를 검출하는 시스템을 제안하였다. 제안하는 분류기를 평가하기 위해서 표 1에서 제시한 INRIA Dataset으로부터 Dalal의 Dataset과 본 실험에서 제안한 Dataset인 Case 1과 Case 2에 대하여 각각 학습 및 테스트 이미지를 구성하고, 기존의 HOG-SVM을 이용한 보행자 검출방법과 제안한 HOG-PCA 기반 pRBFNNs를 이용한 보행자 검출방법을 통한 검출률을 표 4 ~ 표 6에 나타내었다. 표에서 제안하는 방법의 경우 학습 성능(Training)과 일반화 성능(Testing)을 함께 보였다.
표 4※ TR : Training, TE : Testing
표 5※ TR : Training, TE : Testing
표 6※ TR : Training, TE : Testing
표 4는 Dalal의 Dataset을 사용한 실험결과로 학습과 테스트에 각각 13,388장, 5,096장이 사용되었다. 표 5는 본 실험에서 제안한 Case 1의 실험 결과로 학습과 테스트에 보행자, 비보행자 이미지를 각각 500장씩, 총 학습 1,000장, 테스트 1,000장이 사용되었고, 표 6은 Case 2의 실험 결과로 학습과 테스트에 보행자, 비보행자 이미지를 250장씩, 총 학습 500장, 테스트 500장이 사용되었다. 제안하는 HOG-PCA pRBFNNs를 사용하는 분류기 실험에서는 3,780차원의 HOG 특징을 PCA를 통해 30, 40, 또는 50 차원의 특징으로 축소하고, 각 경우에 pRBFNNs의 규칙 수를 2, 5, 10개 순으로 늘리면서 분류기 학습과 테스트를 수행하였다.
Dalal이 제안한 보행자 검출방법인 HOG-SVM의 검출률과 제안하는 HOG-PCA pRBFNNs의 검출률을 비교한 결과 전체적으로 학습 이미지에 수에 따라 검출률이 향상되는 것을 확인 할 수 있었다. 또한 Dalal 제안한 방법과 본 논문에서 제안한 pRBFNNs 패턴분류기의 보행자 검출률을 비교하였을 때 제안하는 분류기는 50차원으로 축소하고 규칙 수를 10으로 한 경우에 좋은 성능이 나타났다. 그리고 보행자 이미지와 비보행자 이미지 비율을 같게 하기 위해 구성한 Case1과 Case 2의 실험 결과 제안한 분류기가 규칙 수를 5로 학습하였을 때 기존의 HOG-SVM보다 좋은 성능을 나타냈다. 또한 축소 차원에 따라 규칙 수 5이상부터는 Overfitting 문제로 인한 검출률이 저하가 발생하였다
다음은 제안하는 분류기를 통한 보행자 검출 시스템을 검증하기 위해 이미지와 동영상을 이용한 실험을 하였다. 그림 10의 (a),(b)는 INRIA Dataset 이미지에서 실외 환경에서 단수와 복수의 보행자를 기존의 방법과 제안한 분류기를 이용한 보행자 검출 결과를 나타낸다.
그림 10INRIA Person Dataset 이미지에서 보행자 검출 Fig. 10 Pedestrian Detection In INRIA Person Dataset
그림 10의 (a)에서 보는 바와 같이 실외환경에서 단수의 보행자 검출은 두 방법 모두 보행자 검출을 잘 되었지만 그림 10의 (b)의 복수의 보행자에서는 제안한 분류기가 기존 방법보다 보행자를 잘 검출하였다. 이는 기존 방법인 SVM 분류기가 두 집합 사이의 여백(Margin)을 최대화 하는 간단한 논리인 반면 제안한 pRBFNNs 패턴분류기는 다항식 기반에 복잡한 구조로 학습하여 다차원 문제와 일반화 능력이 우수한 결과이다.
그림 11의 (a),(b)는 각각 PETS(Performance Evaluation of Tracking and Surveillance) 2000과 본 연구에서 촬영한 복수의 보행자가 포함한 동영상에서 제안한 분류기를 이용한 보행자 검출 결과를 나타낸다. 그림 11의 (a),(b)에서 보는 바와 같이 복수의 보행자들 간에 일정한 간격이 유지가 되면 단수의 보행자로서 검출이 잘되어진다. 하지만 보행자들의 간격이 서로 가까워질 경우 중첩되어 검출되거나 검출되지 않는 경우가 발생한다. 이는 기존 HOG-SVM 분류기와 제안한 분류기가 공통으로 가지는 문제로 그림 7의 (a)와 같이 단수의 보행자 위주로 학습하였기에 때문이다.
그림 11동영상에서 보행자 검출 Fig 11 Pedestrian Detection In Video
한편, 본 논문에서와 같이 영상 내 윈도우 슬라이딩을 이용한 HOG 특징 검출 방법들은 입력 영상에서 보행자의 크기를 모르기 때문에 입력 영상에서 영상 피라미드를 구축하여 각 후보 영역을 분류기에서 학습한 마스크 크기로 보행자를 검출하기 때문에 그림 10의 (b)와 같이 검출한 영역 크기와 보행자 크기가 맞지 않는 경우가 발생한다. 추후, 이를 개선하기 위해서, 앞서 서론에서 소개한 특징 추출방법 외 인접된 영상간의 차분 혹은 추정된 배경과의 차분을 통한 움직임 변화 영역으로부터 객체를 검출하는 배경 모델링을 이용한 차분 방법과 관심영역 크기 보정을 통한 개선이 필요하다.
5. 결 론
본 논문에서는 지능형 영상 감시 시스템에서 보행자를 검출을 수행할 때 신뢰성이 높은 검출을 위해 제안하는 HOG-PCA 특징을 이용한 pRBFNNs 패턴분류기를 통한 보행자 검출률과 기존의 보행자 검출 연구의 검출률을 비교 및 평가를 진행하였다. 실험 결과 제안하는 방법이 HOG 특징의 고차원으로 인한 많은 연산과 불필요한 차원들로 인해 검출률이 저하되는 문제점을 개선할 수 있어 신뢰성이 높은 검출이 가능하게 되었다. 향후 감시 시스템의 기초이면서 도전성이 높은 추적 및 안전 감시 등에 적용을 위한 배경모델링 및 추가적으로 분류기 성능의 향상을 위해 최적화 알고리즘을 이용하여 최적의 파라미터를 통한 최적화된 분류기를 설계할 계획이다.
피인용 문헌
- Design of Upper Body Detection System Using RBFNN Based on HOG Algorithm vol.26, pp.4, 2016, https://doi.org/10.5391/JKIIS.2016.26.4.259
- Build a Robust Learning Feature Descriptor by Using a New Image Visualization Method for Indoor Scenario Recognition vol.17, pp.7, 2017, https://doi.org/10.3390/s17071569