1. 서 론
과거의 자동차는 짐을 운반하거나 사람을 태워서 이동시키는 수단이었지만, 지금의 자동차는 이러한 기능을 넘어서 모양의 세련미, 내부의 안락함, 사용의 편리함 등 다양한 기능들이 부과되고 있다. 그리고 이러한 기술은 아주 빠르고 다양하게 발전되고 있다. 몇 년 전까지의 자동차 개발은 자동차의 성능 향상뿐만 아니라 사고 이후 차량 내부의 운전자와 승객을 보호하기 위한 연구에 초점을 맞추어 왔다. 그러므로 교통사고로 인한 차량 내부에 있는 사람의 상해 정도가 자동차 내외의 많은 안전장치 기술에 의해 점점 낮아지고 있다. 그러나 운전자의 부주의 혹은 도로환경에 인해 발생되는 차량 외부의 사고들은 아직 많은 문제점을 가지고 있으므로 교통사고로부터 생명을 구하기 위해 교통사고의 위험을 감지하는 것이 필요하다[1].
지난 몇 년간에 걸쳐, 인간의 안전에 대한 연구는 대부분이 정지 영상과 프레임워크로부터 도로위의 보행자 및 자동차에 대한 검출 비율을 증가시키는데 중점이 되어왔다. 그러므로 현재의 지능형 자동차 연구는 보행자와 자동차를 제외한 자전거와 모터사이클 같은 이륜차, 그리고 작은 자동차와 같은 연약한 도로 이용자(vulnerable road users)를 보호하기 위한 연구가 미약하다[1,2]. 보행자와는 달리, 이륜차는 자전거 혹은 모터사이클등과 같은 작은 탈것과 보행자를 합쳐 놓은 상태이다. 그리고 보는 각도에 따라 다양한 형상을 나타낸다. 그러므로 보다 향상된 지능형 자동차를 구현하기 위해서는 일반 도로위에 있는 연약한 도로이용자도 연구되어져야 한다.
지능형 자동차를 위한 다양한 종류의 센서들이 정확도, 실시간 검출 그리고 추적을 위해서 사용되고 있다: 카메라, 원적외선 카메라, 근적외선 카메라, LIDAR, RADAR 등[3]. 그리고 보다 향상된 결과를 얻기 위하여 복합 형태의 시스템이 사용된다. 앞에서 언급한 것처럼 이륜차는 사람과 물체의 결합 형태이므로 보행자 인식과 유사하다고 할 수 있다. 영상기반의 지능형 자동차를 위한 영상획득 방법에는 단일영상획득 방법과 스테레오 영상획득 방법이 있다[3]. 단일영상 획득 방법은 카메라 한 대를 이용하여 영상을 획득하여 이용하는 것이며, 스테레오 영상획득은 두 대의 카메라를 이용하여 영상의 깊이 차를 이용하는 방법이다. 가장 저렴하고 많이 사용되고 있는 단일 영상 획득 방법 중 외형기반 방법은 보행자의 움직임, 의복, 빛, 자세와 배경 등 다양한 외부 조건에 영향을 받는다[4,5].
이륜차는 사람과 물체의 결합 형태이므로 보행자 특징 추출과 유사하다. 특징 추출 방법으로 Harr 웨이블릿(Wavelet)기반 방법[6], 기울기의 히스토그램(Histogram of Oriented Gradient (HOG))을 이용한 방법[7], 그리고 LRF(Local receptive field) 방법[8] 그리고 LBP(Local binary pattern)[9] 등이 주로 연구되고 있으며, 분류 방법으로는 SVM(Support Vector Machine), 신경망, 아다부스트 알고리즘이 많이 적용되고 있다. Papageorgiou[10]은 수정된 Haar 웨이블릿을 이용하여 다항식 SVM 방법에 의해 보행자를 검출하였으며, Depoortere 등[11]은 Papageorgiou등의 연구로부터 최적화한 결과를 얻었으며, Gavrila와 Philomin[12]은 에지 영상 추출로 부터 깍은 모서리(chamfer) 거리를 이용한 비교를 수행하였다. Chamfer 거리는 가장 가까운 특징들의 평균 거리로 나타낸다. Viola등[13]은 Haar-like 웨이블릿과 공간-시간 차이(space-time difference)를 기초로 한 좀 더 복잡한 영역의 이동하는 사람 검출을 아다부스트 알고리즘에 의한 훈련영상을 이용하여 검출 하였다. Ronfard등[14]은 1차와 2차 가우시안(Gaussian) 필터에 대한 limb 클래스 화를 기초로하는 합동 SVM에 의한 정확한 신체 검출을 구현하였다.
이륜차에 대한 연구 진행은 아직 많지 않다. 그리고 영상에서 이륜차는 사람과 함께 형상으로 나타내므로 보행자 인식 알고리즘과 유사하게 사용 할 수 있다. 그러나 이륜차는 보는 각도에 따라 다양한 형상을 나타내므로 연구에 어려움이 많다. 이에 본 연구에서 HOG의 국소 영역에 대한 밝기 분포방향을 히스토그램화하여 특징 벡터를 기반으로 국부적 셀히스토그램의 시프트와 두 셀의 히스토그램 인터섹션를 이용한 새로운 셀 히스토그램 특징 벡터를 구하는 알고리즘을 개발하였으며, 제안된 방법은 기존의 제안된 일반적인 방법의 기울기 히스토그램보다 높은 이륜차 및 비이륜차의 검출 능력을 향상시켰다. 그리고 빠르고 정확한 분류를 실현하기 위하여 전통적인 방법의 아다부스트 알고리즘을 적용하였다. 논문의 2장에서는 특징 추출을 위한 HOG 방법을 설명하며, 3장에서는 제안된 알고리즘을 기술하고, 4장에는 분류에 사용된 아다부스트 알고리즘을 서술하며, 실험 및 결과를 4장에 그리고 5장에 결론을 나타내었다.
2. 특징 추출
2.1 기울기 히스토그램(HOG)
HOG[7,15]는 영상의 국소 영역에 대한 밝기 분포를 기울기에 대한 방향성 히스토그램을 특징 벡터로 사용하는 것이다. 이것은 작은 공간 영역(셀)에서의 접근과 큰 공간 영역(블럭)의 접근에 의해 생성된다. 근접화소의 분포를 국소영역에 대해 히스토그램화함으로써 조명의 영향을 적게 받으며, 국소영역의 기하학적인 변화에 강건한 특징을 가지고 있다[16]. 특징 추출 과정은 3가지 단계로 나룰 수 있다.
첫 번째, 입력된 그레이 영상 I(x, y)에 대해 x 방향 과 y 방향으로 1차원 미분 값 fx와 fy는 다음 식 (1)을 이용하여 계산한다.
여기서 M은 마스크 [-1 0 1]를 의미한다. 계산된 결과로부터 픽셀 I(x, y)에 대한 경사 크기 m과 방향성 θ는 식(2)와 (3)를 이용하여 계산한다.
두 번째, 특징 벡터를 구하기 위해 전체 영상을 작은 공간 영역의 셀 벡터화를 실시한다. 셀의 크기는 여러 가지로 할 수 있지만 논문에서는 8 × 8 픽셀을 사용하였다. 각 셀 내부의 픽셀들에 위치하는 크기는 방향성 θ을 이용하여 방향성 히스토그램을 작성한다. 본 논문에서는 0-180˚를 기준으로 나타내었으며, 20˚씩 분할하여 9개의 방향성(빈)에 대한 히스토그램을 작성하였다. 입력 영상에 대한 크기 값 m에 대한 결과와 임의의 셀에 대한 히스토그램 예를Fig. 1(b)와 (c)에 나타내었다.
Fig. 1.The example of two-wheelers HOG normalization (a) Original image (b) Calculated magnitude image (c) Cell and orientation binning expression (d) Normalization processing of blocks with 3×3 cells.
마지막 단계는 큰 공간 영역 구조로 셀 특징 벡터를 블록화 시키는 것이다. Fig. 1(d)에 블록화 하는 과정을 나타내었다. 블록은 3 × 3 셀로 구성되며, 왼쪽에서 오른쪽 그리고 위에서 아래 방향으로 하나의 셀을 이동시켜가면서 진행한다. 최종적인 특징 벡터π는 식 (4)에 의해 구한다.
셀 정규화 과정을 Fig. 1의 (d)에 나타내었으며, 블록의 이동은 우측과 아래 방향으로 1셀씩 움직인다. 128 × 64픽셀 영상에 대해 횡방향으로 6블록, 종방향으로 14블록이 생성되며, 전체 84개의 블록에 대한 정규화가 이루어지므로 “84블록× 81차원”의 6804차원 HOG의 특징 벡터가 얻어진다.
2.2 Haar-like 특징
Haar-like 특징은 수평, 수직 그리고 대각방향의 에지를 각 스케일로 분해하는 Haar 웨이블릿의 확장으로써 Fig. 2에 여러 가지의 Haar-like 특징 패턴을 나타내었다.
Fig. 2.Haar-like feature types.
Haar-like 특징은 인접해 있는 검은색과 흰색의 직사각형 영역 안에 위치한 픽셀들의 값을 더하여 영역의 합을 구한 뒤 그 값들에 가중치를 곱한 값의 합을 구하여 특징 값을 계산한다[17]. Haar-like 특징들은 직사각형 형태이므로 적분 이미지를 이용하여 빠른 속도로 계산 할 수 있다. 직사각형 r에서 점(x, y)의 적분이미지 값은 Fig. 3에 나타낸 것과 같이 왼쪽 끝점에서부터 점 (x, y)까지 픽셀 값들의 합이다, Fig. 3에서 W는 영상의 너비이며 H는 영상의 높이이다. 적분 이미지 K(x, y)는 식 (4)와 같이 나타낼 수 있다. 식 (5)는 식 (6)와 식 (7)을 반복적으로 사용하여 얻을 수 있다.
Fig. 3.Integral image.
적분 이미지는 입력 영상에 대해 각 픽셀 값을 합한 한 번의 계산으로 SAT(Summed area table)을 생성한다. 이렇게 구해진 적분 이미지를 이용하면 실제 원하는 위치의 픽셀 값들의 합을 구할 때 빠른 계산이 가능하다. 즉 원 영상을 적분 영상으로 변환하는데 시간이 소요되지만, 적분 영상이 생성되면 Haar-like특징 값 계산은 식 (8)과 같이 4번의 연산만으로 빠르게 계산 할 수 있다. 하나의 픽셀을 h(x, y)라고 가정하여 계산한다.
Fig. 4에 나타낸 가운데 청색 부분의 사각 영역에 대한 합을 식 (8)을 이용하여 간단하게 구할 수 있다. 특징 개수를 줄이기 위해 Fig. 2의 (a)와 (b)만을 본 논문에서 사용하였으며, 사용된 전체 특징 개수는 9108개이다.
Fig. 4.The calculation of integral image.
3. 제안한 방법
3.1 제안한 알고리듬의 개요
HOG 방법은 셀 이라는 작은 영역에 대한 처리와 블록이라는 큰 영역에 대한 처리에 의해 특징 벡터를 구하는 방법이다. 본 논문에서는 작은 영역에 대한 새로운 특징 벡터를 구하는 것을 제안한다. 셀과 셀 사이의 히스토그램 빈 시프트에 의한 특징 벡터를 생성하고 히스토그램 인터섹션에 의한 무게 값을 구하여 새로운 셀 특징 벡터를 생성한다. 제안된 방법에 대한 간략한 알고리즘 흐름도를 Fig. 5에 나타내었다.
Fig. 5.Flowchart for new cell feature generation algorithm.
2.1절에 의해 입력 영상으로부터 밝기분포의 크기변화 값 m과 변화의 방향성 θ를 구한다. Fig. 1 (c)에 나타낸 것처럼, 본 논문에서 사용된 하나의 셀 크기는 8 × 8픽셀이며, 각 셀들은 9개의 빈을 가지고 있으므로 입력영상 128 × 64 크기는 128 × 9의 크기로 압축된다. 비교 대상이 되는 셀 블럭의 크기 선택은 실험에 의해 영상에서 사람과 이륜차를 같이 포함하는 영역을 설정하여 사용하였다. Fig. 6(b)에서 바둑판모양의 검은색 사각형이 각각의 셀을 나타내며, 푸른색 사각형이 국부적 셀들을 의미한다. 계산된 셀들로 부터, 국부적 셀들에 대한 평균 셀(Cavg)을 계산한다. 현재 k번째 위치의 셀 (Fi(k))과 국부적 평균 셀(Cavg)에 대해서 정규화를 시킨 후, 식 (9)에 의해 크기 값에 따른 특징 값을 계산한다.
Fig. 6.Example of Cells. (a) Original Image (b) Cells and Local Cell are shown.
여기서 i는 히스토그램 빈을 의미하며, NFi(k)는 현재 k번째 셀의 정규화 값 그리고 는 국부적 셀 평균의 정규화 값이다. 그리고 Fi(k)는 현재 k번째 셀의 특징 값이다. 계산된 결과는 벡터 테이블 Mi, j의 j번째에 저장된다. 평균 셀의 빈을 1비트씩 이동(순환 방법)시켜 식 (9)을 적용하면 9 × 9 벡터 테이블이 얻어진다. 계산된 벡터 테이블을 세로 투영에 의한 합을 구하여 k번째 셀의 새로운 셀 히스토그램 Ci(k)가 계산된다.
3.2 수정된 히스토그램 인터섹션(Histogram Intersection)
두 셀 간의 유사성을 이용한 무게 값을 계산하기 위해 수정된 히스토그램 인터섹션 방법을 사용한다. Histogram Intersection(HI)는 M. Swain and D. Ballard[13]에 의해 컴퓨터 비전 분야에서 영상 검색을 위한 유사도 비교로서 처음제안 하였다. 이 방법은 두 영상에 대하여 컬러히스토그램을 구한 다음 두 히스토그램이 일치 하는 정도를 나타내며 식 (10)과 같다.
여기서 A = (A1, A2, ..., An)는 질의 영상 그리고 B = (B1, B2, ..., Bn)는 데이터베이스 영상이며, 각각 n개의 빈을 가지는 히스토그램이다. 두 히스토그램의 빈을 비교하여 최소값을 찾아서 누적을 하는 것이며, 이는 식 (11)을 이용하여 0에서 1사이로 정규화를 시켜 유사도의 정도를 파악한다.
E. Cheng등[19]은 영상 분류를 위해 이 방법을 처음으로 도입하였다. 일반적인 히스토그램 인터섹션에서는 빈을 비교하여 최소값 하나을 고려하였지만, 본 논문에서는 두 셀의 히스토그램 빈을 서로 비교하여 두 개의 값을 생성한다. k번째 정규화된 셀(NFi(k))과 국부적 정규화된 평균 셀(NCavg)의 히스토그램 빈을 비교하여 큰 값들의 평균과 작은 값들의 평균을 (12)에 의해 두 개의 무게 값을 생성한다.
여기서 i는 9개의 히스토그램 빈을 나타내며, Ss(k)는 k번째 정규화된 셀의 히스토그램 빈 값이 작을 경우의 평균값 그리고 SL(k)는 k번째 정규화된 셀의 히스토그램 빈 값이 클 경우의 평균값이다. 그리고 cnt_A와 cnt_B는 두 셀의 빈 값 크기비교에서 를 만족하는 빈의 개수이다. 각각의 무게 값은 3.1절에서 구한 Ci(k)에 곱해져서 최종적인 셀 히스토그램이 계산된다.
4. 분류화
Adaboost는 통계적 학습 방법으로써 Freund 등 [20]에 의해 처음 제안한 Boosting방법의 하나이다. Positive 영상(이륜차)과 Negative 영상(비이륜차)을 학습 데이터 집합으로 만들어 분류하는 작업은 Gauss혼합분포[21] SVM[22] 그리고 Adaboost 방법[12,24]등이 있다. 본 논문은 임의의 입력 영상에 이륜차 검출을 위해 학습 데이터의 분류기로 Adaboost알고리즘을 사용하였다. 이것은 여러 개의 약한 분류기(Weak Classifier)를 선형적으로 결합하여 하나의 강한 분류기(Strong Classifier)를 생성하는 것이다. Boosting 가운데서 가장 일반적인 Adaboost 알고리즘은 다루기 힘든 분류 작업을 지수함수를 이용하여 갱신되는 가중치를 부과하여 학습하고, 이를 순차적으로 능력을 높여가는 알고리즘으로써, 복잡하고 다양한 배경에서 강인한 판별 능력을 나타내기 때문에 현재 폭넓게 이용되고 있다. Adaboost 알고리즘 과정을 요약하면 다음과 같다.
Ⅰ. N개의 학습 영상 (x1,y1), ·····, (xN,yN)
여기서 xi : 학습영상, yi : 분류 표시기(이륜차: +1, 비이륜차: -1)
Ⅱ. 학습 영상의 가중치 초기화
각 영상에 대해 동일 무게값 wt(i)을 할당한다.
Ⅲ. T회 학습 반복
(1) M개의 약 분류기
특징점 m에 대한 분류기 ht을 학습 시킨다.
ht : t번째 약분류기, p : 분류 표시기, v(x) :임계값, θ : 특징값
(2) 에러 계산
(3) 에러값 ϵt가 가장 작게 되는 분류기 ht를 선택한다
ht = arg min ϵt(m)
(4) 분류기의 가중치 결정
(5) 가중치 갱신과 정규화
(6) 최종적으로 강분류기 생성
여기서,
단계 Ⅱ에서 훈련영상에 대해 모두 동일 가중치를 부과한다. 단계 Ⅲ에서는 약분류기를 생성한다. 에러가 가장 적은 분류기 선택과 이 분류기에 대한 새로운 가중치를 부과한다. 잘못 분류된 훈련 영상은 높 은 가중치를 부과하고 올바르게 분류된 훈련 영상은 낮은 가중치를 부과한다. 약한 분류기를 선형적으로 결합하여 최종적인 강분류기를 생성한다.
5. 실험 결과 및 고찰
본 논문은 제안된 알고리즘을 확인하기 위하여 이륜차와 이륜차가 아닌 것에 대해 아래와 같이 실시하였다. 실험 시스템 및 소프트웨어는 펜티엄 3.1GHz의 일반 사용자 컴퓨터 환경과 Visual C++ 6.0환경이다. 실험에 사용된 이륜차 데이터는 도로 위에서 직접 촬영해서 획득된 것과 인터넷으로부터 얻어진 데이터이다. 이륜차 영상은 보는 각도에 따라 여러 가지 모습으로 나타난다. 본 논문에서는 자동차 안에서 보았을 때, 이륜차의 앞모습과 뒷모습에 대해 정면(약 90도, 이하 90˚로 표기) 그리고 약간 기울어진 각도(약 60도 이상, 이하 60˚로 표기)을 사용하였다. 획득된 사진 640 × 480(가로×세로)으로부터 128 × 64(가로×세로)크기로 정규화 된 이륜차 2353장을 추출하였으며, 훈련영상과 실험영상으로 나누어 사용하였다. 실험에 사용된 이륜차의 개수를 Table 1에 나타내었다. 여기서 B는 자전거, M은 모터사이클 그리고 MB는 자전거와 모터사이클의 혼합을 의미한다. 비이륜차 영상은 일반 도시 거리의 사진(640 × 480)에서 랜덤하게 추출된 영상 128 × 64크기를 사용하였다. 훈련과정에 사용된 비이륜차 영상은 이륜차 영상과 같은 개수(1:1)를 사용하였으며, 큰 영상 내에는 이륜차보다 배경이 훨씬 많이 차지하므로 테스트과정의 비이륜차 영상은 3000장을 사용하였다. 그리고 정면 영상의 개수와 후면 영상의 개수는 훈령영상과 테스트 영상에 대해 거의 1대1로 맞추어서 실험하였다. Fig. 7은 실험에 사용된 이륜차와 비이륜차의 영상 예를 나타내었다. Fig. 7의 첫 번째 행은 자전거영상 예이며, 두 번째 행은 모터사이클 영상 예이다.
Table 1.The number of training and test images
Fig. 7.The example of positive and negative images.
실험은 일반적인 HOG 방법 실험과 Haar-like 특징을 이용한 실험을 실시하였으며, 그리고 국부적 영역의 빈(bin) 시프트와 셀의 상관관계를 이용한 제안된 알고리즘을 실시하였다. 실험 결과의 분석을 위해 각각의 방법 및 각도에 대해 혼돈행렬(confusion matrix)의 참 긍정률(true positive rate)과 거짓 긍정률(false positive rate)을 이용한 ROC 곡선을 적용하였다.
식 (9)에 의해 얻어진 매트릭스를 세로투영을 이용하면 새로운 특징 벡터 Ci(k)을 얻을 수 있다. 본 논문에서는 영상으로부터 이륜차와 배경에 대해 다른 무게 값을 주기위하여 식 (11) 이용한다. 최종적으로 얻게 되는 새로운 셀 히스토그램은 무게 값이 사용된 식 (13)에 의해 구해진다.
여기서 TH는 임계값을 의미하며 실험에서는 1.0값을 사용하였다. 그리고 Γi는 제안된 방법에 의해 생성된 새로운 셀 히스토그램 벡터이다. CT는 Fig. 6(b)에 나타낸 것처럼 영상에서 세로 셀의 중간을 의미한다. Fig. 6 (b)에서 CT 상단 부분은 보행자의 상체, 이륜차 일부 그리고 배경으로 구성되어지며, 하단 부분은 보행자의 다리, 이륜차 그리고 도로로 구성되어진다. CT 상단 부분은 배경과 어우러져 복잡하게 나타나기 때문에 작은 무게 값을 적용하였으며, CT 하단 부분은 상단 부분보다 훨씬 낮은 복잡성 나타내므로 큰 무게 값을 적용하였다. 무게 값이 적용된 셀 특징 벡터를 이용하여 식 (4)에 의해 블록 정규화를 실시하여 최종적인 특징 벡터가 구해진다. ROC 곡선을 적용한 실험 결과를 Fig. 8, Fig. 9 그리고 Fig. 10에 나타내었다. 여기서 판별을 위해 적용된 문턱치 값의 범위는 -20 ∼+20이다.
Fig. 8.The result of experiment for ordinary HOG Method.
Fig. 9.The result of experiment for Haar-like feature.
Fig. 10.The result of experiment for proposed method.
제안된 방법은 국부적 셀 히스토그램의 빈 시프트에 의한 새로운 셀 특징 벡터 생성과 히스토그램 인터섹션에 의한 무게 값을 이용하여 최종적인 셀 특징 벡터를 구하였다. Fig. 8, Fig. 9 그리고 Fig. 10에 나타낸 것처럼, ROC의 면적이 크면 좋은 시스템이므로 제안된 방법이 보다 우수한 성능을 나타낸다. 각도별 실험에서는 세 경우 모두 90도가 60도 보다는 높은 시스템 성능을 나타내었으며, 혼합(그림에서 90-60로 표기)인 경우는 중간을 나타내었다. 이러한 결과의 이유는 두 가지로 살펴 볼 수 있다. 첫 번째는 60도의 훈련 개수가 90도에 비하여 적었다는 것이다. 두 번째는 90도인 경우는 보행자와 거의 비슷한 자세의 보다 좁은 영역의 특징이 사용되며, 60도 경우는 보다 넓은 영역의 특징을 가져오므로 확산된 특징을 가지게 되므로 오인식 되는 확률이 높다고 판단되어 진다. 인식 수행 시간은 특징이 추출된 영상 1장에 대해 제안된 방법은 약 20ms로 나타났으며, 다른 방법들도 비슷하게 나타났다.
그리고 이를 수치적으로 알아보기 위해 식 (14)를 이용하여 각각의 방법에 대한 최고의 정밀도를 Table 2에 나타내었다. 여기서 BS_HOG는 제안된 방법을 나타낸다.
Table 2.Accuracy Rate for each method(%)
식 12에서 True Positive는 이륜차 영상을 이륜차로 식별한 것이며, False Positive는 이륜차 영상을 비이륜차로 인식한 경우이다.
Table 2의 각도에 대해, 자전거의 경우가 모터사이클보다 높은 정밀도를 나타내었다. 이는 자전거가 모터사이클 보다 좀 더 특징 구분이 잘되는 경향을 나타낸 것이다. 원인으로는 모토 사이클의 경우 등 뒤로 높은 짐을 싣거나 높은 적재물에 의해 복잡성이 증가되었기 때문이라 생각되어진다. 각도의 경우는 두 종류의 이륜차 혼합 실험에서는 각도와 종류에 대해 제안된 방법이 다른 알고리즘보다 보다 높은 정밀도를 나타내었다.
HOG와 BS_HOG의 경우 ROC 곡선에서는 비슷한 모양의 결과를 나타내었지만 정밀도 분석에서는 제안된 BS_HOG의 방법이 기존의 방법 보다 높은 성능을 나타낸다는 것을 확인하였다.
무게 값으로 사용되는 히스토그램 인터섹션의 영역 선택을 위한 여러 가지의 영역별 실험 결과를 Table 3에 나타내었다. Table 3에서 나타낸 것처럼, Area_A는 60도의 자전거만 Area_B보다 낮게 나타났으며, 나머지는 모두 다른 방법들 보다 높게 나타났다. 그러므로 제안된 방법에서는 Area_A 영역을 실험에 사용하였다.
Table 3.Accuracy Rate for each area(%)
셀들의 상관계수를 이용하여 무게 값으로 사용한 방법[16]은 이웃한 셀의 상관계수를 미분하여 역수를 취해 무게 값으로 사용하였다. 논문에서는 두 셀의 상관계수를 이용하여 무게 값을 구하여 사용하였지만, 제안된 방법은 셀 히스토그램 벡터를 다시 계산하고 무게 값은 넓은 영역에 대한 셀들의 평균을 구하여 현재 셀과 영역 셀의 인터섹션에 의해 구하는 것이다. 정밀도는 제안된 방법이 일부분 비슷한 결과를 나타내었고 나머지는 약간 낮은 결과를 나타내었다. 낮은 정밀도의 원인은 Fig. 11처럼 넓은 영역에 대한 셀들의 평균을 이용하여 히스토그램 인터섹션을 적용하였기 때문이라고 생각되어진다.
Fig. 11.The example of local areas (a) Area_A (b) Area_B (c) Area_C (d) Area_D.
도로 영상(640 × 480)에서 식 (15)을 적용한 이륜차 검출 결과를 Fig. 12에 나타내었다. 이때 사용한 문턱치 값(TH)은 10.0이다.
Fig. 12.The example result for 640×480 image (by threshold value 10.0) (a) HOG method, (b) Haar-like feature (c) proposed method.
여기서 ht(x)는 전체 화면에서 t번째 추출된 영상을 의미하며, H(x)는 강분류기 그리고 x는 특징벡터이다. 그리고 ‘1’은 이륜차를 검출한 경우이며, ‘0’는 비이륜차를 검출한 경우이다. Fig. 12는 자전거와 모터사이클, 이륜차의 전면과 후면 그리고 각도60과 각도 90를 혼합한 전체의 경우이다. Fig. 12 (a)는 일반적인 HOG 방법 사용이며, (b)는 Haar-like 특징을 사용한 것이고 (c)는 제안된 방법을 사용을 나타내었다. 그림에서 나타낸 것처럼 제안된 알고리즘이 Haar-like특징 보다는 월등히 앞서며, 일반적인 HOG 방법을 사용한 것보다도 에러 검출(비이륜차)이 적게 나타났다. 실험에서 오인식은 전봇대와 나무와 같이 기둥이 형성되는 물체가 있는 부분에서 다수 나타났다. 사람이 이륜차를 타고 있지만 이는 기둥을 가진 물체와 비슷하므로 발생되는 것이라 생각된다. 동영상에서 프레임간의 움직임을 이용하여 후보 영역을 좁히거나 후보 영역에 대한 영역 분할 방법 등을 전처리에서 수행한다면 좀 더 좋은 결과를 얻을 수 있을 것이다. 그리고 나무와 같이 복잡한 형태인 경우도 오인식으로 나타난다. 문턱치 값이 작을수록 비이륜차 검출이 많이 나타났으며 값이 클수록 비이륜차 검출이 적게 나타났다.
자전거와 모터사이클을 검출하거나 인식하는 연구는 아직 미비하다. 유사한 연구로는 자전거를 타고있는 사람을 검출하는 방법들을 제안하였다. 자전거를 타고 있는 사람을 감지하기 위해 HOG 방법의 변형시켜 여러개의 셀 사이즈를 이용한 MSC-HOG 방법[22]은 동영상 실험에서 정밀도 96%를 나타내었다. 히스토그램 빈의 누적합을 이용한 방법[2]은 동영상에서 빠른 검출을 나타내었으나 검출율(Hit rate)은 65.12%을 나타내었다. 그리고 HOG의 문제 점인 중복성을 피하는 전역특징 추출과 피라미드를 이용한 방법[23]은 셀을 사용하지 않기 때문에 속도의 향상과 93.9%의 검출율을 나타내었다. 두 셀의 상관관계 계수를 이용한 방법[15]은 현재 셀과 이웃한 가로 방향 및 세로 방향의 셀에 대한 상관관계를 이용한 것이다. 두 방향에 대한 상관 계수를 구한 후 이를 다시 미분을 취하여 역수 값을 셀의 무게값으로 사용하여 특징량을 구하였다. 실험결과 비교에서 60도는 본 논문에서 제안한 방법보다 좋은 결과를 나타내었으나, 90도와 혼합(90도와 60도)인 경우는 본 논문에서 제안된 방법이 조금 높게 나왔다. 이는 셀과 이웃한 셀들의 상관관계 계수를 이용한 것 보다 본 논문이 제안한 현재 셀과 국부적 특별한 영역 셀들의 관계를 이용하는 것이 좋은 결과를 나타낸다. 그러므로 이를 이용한 다양한 방법의 연구를 고려해야 할 것이다. 아직은 이륜차를 검출하거나 인식하는 연구가 활발하지 않고, 보행자 인식처럼 정례화 된 데이터베이스도 없으며, 자전거를 타고 있는 사람을 검출하는 연구만이 다소 이루어져왔다.
5. 결 론
사람이 타는 이륜차와 소형 기구들은 도로위에서 가장 연약한 도구이다. 본 논문에서는 연약한 도구가운데서 가장 많이 사용하고 있는 이륜차를 지능형 자동차가 높은 수준의 인지도를 가질 수 있는 알고리즘을 제공한다. 지능형 자동차를 위해 지금까지의 연구에서는 여러 개의 haar-like 특징 혹은 HOG 특징을 추출하여 인식하는 방법을 많이 사용하여 왔다. haar-like 특징은 특징 개수도 많이 늘어나며 이로인한 비교 시간이 길어지므로 특징 개수가 적은 것에 비해 많은 인식 시간이 소요된다. 그리고 기존의 HOG의 경우는 계산량은 줄어들지만 낮은 인식률을 나타내었다. 본 논문에서는 인식율 향상을 위해 국부적 영역의 셀 빈 시프트를 이용한 새로운 특징 벡터에 의한 이륜차 검출 시스템을 제안하였다. 그리고 두 셀의 상관관계를 이용한 무게 값은 셀과 국부적 평균 셀 사이의 히스토그램 인터섹션을 응용하여 새로운 특징 벡터를 추출하였다. 세 가지 경우의 자세에 대해 실험하였으며, 제안된 방법을 이용한 실험이 기존의 방법과 비교해서 보다 향상된 인식 정확도를 나타내었다. 이륜차의 분류를 위해 아다부스트를 사용하였으며, 다른 분류 시스템과의 성능 비교가 추후 필요할 것이다. 추가적으로 다양한 자세와 많은 개수의 데이터를 확보하는 것이 보다 정확한 연구를 위해 필요하며, 전동 휠체어와 같은 다른 도로위의 연약자에 대한 연구도 요구되어진다.
References
- H. Jung, Y. Ehara, J.K. Tan, H. Kim, and S. Ishikawa, "Applying MSC-HOG Feature to the Detection of a Human on a Bicycle," Proceeding of 12th International Conference on Control, Automation and Systems, pp. 514-517, 2012.
- H. Cho, P.E. Rybski, and W. Zhang, "Visionbased Bicyclist Detection and Tracking for Intelligent Vehicles," IEEE Intelligent Vehicles Symposium 2010, pp. 454-461, 2010.
- M. Enzweiler and D. Gavrila, "Monocular Pedestrian Detection: Survey and Experiments," IEEE Transactions on Pattern Analysis and Machine Interlligence, Vol. 31, No. 11, pp. 2179-2195, 2009. https://doi.org/10.1109/TPAMI.2008.260
- A. Broggi, M. Bertozzi, and A. Fascioli, "Shape-based Pedestrian Detection," Proceeding of the IEEE Intelligent Vehicles Symposium 2000, pp. 215-220, 2000.
- M. Mahlisch, M. Oberlander, O. L.hlein, D. Gavrila, and W. Ritter, "A Multiple Detector Approach to Low-resolution for Pedestrian Recognition," Proceeding of IEEE Intelligent Vehicles Symposium 2005, pp. 23-28, 2005.
- C. Papageorgiou and T. Poggio, "A Trainable System for Object Detection," International Journal of Computer Vision, Vol. 38, No. 1, pp. 15-33, 2000. https://doi.org/10.1023/A:1008162616689
- N. Dalal and B. Triggs, "Histogram of Oriented Gradients for Human Detection," Conference on Computer Vision and Pattern Recognition, 2005.
- S. Munder and D.M. Gavrila, "An Experimental Study on Pedestrian Classification," IEEE Transactions on Pattern Analysis and Machine Interlligence, Vol. 28, No. 11, pp. 1863-1868, 2006. https://doi.org/10.1109/TPAMI.2006.217
- T. Ojala, M. Pietikainen, and D. Harwood, "A Comparative Study of Texture Measures with Classification based on Feature Distributions," Pattern Recognition, Vol. 29, No. 1, pp. 51-59, 1996. https://doi.org/10.1016/0031-3203(95)00067-4
- R. Fransens, V. Depoortere, and J.D. Prins, Boundary based Feature Selection, Technical Report, KU. Leuven, 2002.
- D. Gavrila and V. Philomin, "Real-time Object Detection for "Smart" Vehicles," Proceeding of IEEE International Conference on Computer Vision, pp. 87-93, 1999.
- P. Viloa, M. Jones, and D. Snow, "Detecting Pedestrians using Patterns of Motion and Appearance," International Journal of ComputerVision, Vol. 63, No. 2, pp. 153-161, 2005. https://doi.org/10.1007/s11263-005-6644-8
- R. Ronfard, C. Schmid, and B. Triggs "Learning to Parse Pictures of People," Proceeding of The 7th European Conference on Computer Vision, Vol. 2353, pp. 700-714, 2002.
- C. Matsushima, Y. Yamauchi, T. Yamashita, and H. Fujiyoshi, A Method for Reducing Number of HOG Features based on Real AdaBoost, IPSJ SIG Technical Report, pp. 1-8, 2009.
- B. Kim, S. Park, Y. Lee, and G. Lee, "Two Wheeler Recognition using the Correlation Coefficient for Histogram of Oriented Gradients to Apply Intelligent Wheelchair," Journal of Biomedical Engineering Research, Vol. 32, No. 4, pp. 336-344, 2011. https://doi.org/10.9718/JBER.2011.32.4.336
- C.P. Papageorgiou, M. Oren, and T. Poggio, "A General Framework for Object Detection, " Proceedings of the International Conference on Computer Vision '98, pp. 555-562, 1998.
- M. Swain and D. Ballard, "Color Indexing," International Journal of Computer Vision, Vol. 7, pp. 11-32, 1991. https://doi.org/10.1007/BF00130487
- E. Cjeng, N. Xie, H. Ling and P.R. Bakic, "Mammographic Image Classification using Histogram Intersection," Proceeding of 2010 International Symposium on Biomedical Image, pp. 197-200, 2010.
- Y. Freund and R.E. Schapire, "A Decisiontheoretic Generalization of On-line Learning and an Application to boosting," Journal of Computer and System Science, Vol. 55, No. 1, pp. 119-139, 1997. https://doi.org/10.1006/jcss.1997.1504
- D.A. Reynolds, T.F. Quatieri, and R.B. Dunn, "Speaker Verification using Adapted Gaussian Mixture Models," Digital Signal Processing, Vol. 10, No. 1-3, pp. 19-41, 2000. https://doi.org/10.1006/dspr.1999.0361
- J.A.K. Suykens and J. Vandewalle, "Least Squares Support Vector Machine," Neural Processing Letters, Vol. 9, No. 3, pp. 293-300, 1999. https://doi.org/10.1023/A:1018628609742
- H. Jung, Y. Ehara, J.K. Tan, H. Kim, and S. Ishikawa, "Applying MSC-HOG Feature to the Detection of a Human on a Bicycle," Procceding of 12th International Conference on Control, Automation and Systems, pp. 514-517, 2012.
- T. Li, X. Cao, and Y. Xu, "An Effective Crossing Cyclist Detection on a Moving Vehicle," Proceedings of the 8th World Congress on Intelligent Control and Automation, pp. 368-372, 2010.
- Y.H. Lee, T.S. Kim, S.H. Lee and J.C. Shim, "New Approach to two wheelers detection using Cell Comparirion," The Journal of Multimedia Information System, Vol. 1, No.1, pp. 45-53, 2014.