I. Introduction
최근 사회적 거리 두기 완화로 대면 수업이 전환되면서 대학을 방문하는 재학생들이 늘어난 만큼 교내 교통 문제가 다시 대두되고 있다. 대학 내 안전 수칙 위반 사례가 증가하고 있지만 이를 규제할 방안이 없어 안전 사각지대에 놓여있는 상황이다. 특히 차도와 인도 구분도 명확하지 않은 구역들이 많으며 가파른 언덕과 급회전 길, 삼거리, 사거리 등 다양한 환경의 도로가 많다. 보행자의 안전과 보호 의무를 강화하기 위해 도로교통공단에서 2022년 7월부터 보행자 안전 문제를 개선하기 위해 운전자의 보행자 보호 의무[1]를 강화하는 것에 중점을 두어 시행되었다. 도로교통법 제 2조 제26호, 제27초 6항 제 제3호는 ‘도로 외의 곳’을 통행하는 차의 운전자에게도 서행 또는 일시 정지 등 보행자 보호 의무가 부여됨을 명시하였다. ‘도로 외의 곳’에는 아파트 단지 내 통행로, 대학교 구내 도로, 주차장 등이 포함된다. 또한 횡단보도 앞 일시 정지 의무도 강화됐다. 하지만 개강 후 몰려드는 시간대의 차량의 보행자간의 뒤섞임과 혼잡한 상황에 보행 안전에 심각하게 위협을 받는 것은 사실이지만 별다른 조치는 없는 상태이며 현장을 관리하는 이도 없는 상황이 대부분을 차지한다.
교통사고를 최소화하고 안전한 대학 내 환경을 조성하려는 방안 중 하나로 교통표지판이 곳곳에 설치되어있으나 인식률이 낮고 곳곳에 돌발상황들이 존재하므로 기존 교통표지판으로 소통하기에는 문제점이 있다. 이렇듯 교통안전 표지판에 대한 시인성과 안전에 대한 요구가 증대되는 상황에서 주 이용 대상인 운전자와 보행자에 대한 이해를 기반으로 시스템을 개선하는 것이 필요하다. 가변형 LED 표지판 및 과속 단속 카메라 장비의 가격이 개당 최소 1,000만 원 이상이며 1개가 아닌 최소 2개 이상의 설치구역이 존재하여 이에 대한 교내 시설 부담 비용도 증가로 소극적인 자세로 취할 가능성이 클 수밖에 없기 때문이다.
본 연구는 먼저, 객체 탐지와 객체 추적의 대표적인 모델들의 특징들을 살펴보는 문헌 연구를 진행한 후, 본 연구에서 제안한 모델을 통해서 공개 데이터들을 활용해 학습을 진행하여 실제 현장에서 적용하는 순으로 진행하여 결과와 보완점에 관해 기술하였다. 상호소통이 가능할 수 있는 스마트 교통안전 시스템을 구축하고자 크게 2가지로 나누어 다루었다. 첫 번째, 도로 내 운전자와 보행자 간의 붐비는 특정 지역을 찾아 일반 스마트폰 카메라 성능 수준의 장비를 이용하여 영상처리를 통해 차량의 통행량 및 구간 속도 계산하여 교내 과속 시 주의 및 알림 표지판을 실시간 반응할 수 있도록 구현하였다. 두 번째로 횡단보도 앞 전후 구역에서 보행자와 운전자 간의 인식을 위해 안전하게 길을 건널 수 있도록 차량과 보행자를 인식하여 구간의 상황마다 유동적으로 전달 가능한 스마트 표지판 시스템을 구축하였다.
II. Preliminaries
1. Related works
1.1 Object detection
객체 탐지[2]는 사진이나 비디오 프레임 같은 이미지에서 특정 클래스(예: 보행자, 자동차)의 객체 인스턴스를 인식하는 데 사용되는 컴퓨터 비전 작업이다. 카메라의 가격이 낮아지고, 소형화되었지만, 고화질로 성능 상승과 컴퓨팅의 성능이 극적으로 증가하면서 영상 기술의 발전 속도가 올렸다. 객체 탐지는 비지도와 지도 훈련으로 나눌 수 있다.
먼저, 비지도 훈련은 이미지 처리 훈련하는 과거 데이터가 필요 없고 감독 되지 않음으로 수동 라벨링의 작업도 필요하지 않다. 하지만 다양한 환경에서 배경, 숨겨진 객체, 그림자 같은 상황에서는 제약을 받아 성능이 저하될 가능성이 존재한다. 두 번째로 지도 훈련방식을 적용할 수 있는 딥러닝 모델은 엄청난 양의 라벨링 된 데이터로부터 훈련이 이루어지며 데이터의 라벨링 하는데 소요 시간과 비용이 단점으로 작용한다. 하지만 폐색, 복잡한 장면, 조명, 그림자 등 복잡한 환경에서도 인식할 수 있다. 인식 알고리즘은 2종류로 1단계, 2단계 유형으로 분류할 수 있다.
Two-stage 검출기는 기존 컴퓨터 비전 방법인 객체 영역 제안과 경계 상자 회귀를 통한 제안 영역에서의 추출된 특징을 기반으로 객체 분류가 이루어진다. 그다음 이미지 당 추론단계로 빠른 지역 합성곱 신경망(Faster region-based convolutional neural networks, Faster R-CNN) [3] 또는 Mask R-CNN [4] 이 진화된 R-CNN 모델로 관심 영역을 찾은 후 잘린 영역을 분류하는 추론 단계이므로 속도는 느리나 높은 정확도를 달성한다. 하지만 자르기가 불가능한 종단간 훈련이 가능하지 않다는 점이 특징이다.
One-stage 검출기는 영역 제안 단계 없이 이미지에 대한 경계 상자를 예측하는 것으로 소요 시간이 짧아 실제 애플리케이션에 활용이 되고 있다. 가장 널리 사용되는 모델로 YOLO(You Only Look Once) [5], SSD(Single Shot Multi box Detector) [6], Retina Network [7] 가 있다. 추론 속도를 우선시하여 매우 빠르지만 불규칙한 모양의 물체나 작은 물체 그룹을 인식하는 데 다소 부정확함이 특징이다.
과거의 객체 감지 알고리즘으로는 Viola Jones(VJ) 감지기, 지향성 그래디언트 히스토그램 (Histogram of oriented gradients, HOG) 검출기, 그리고 변형 가능한 부품 기반 모델(Deformable part-based model, DPM)등이 있고 이들은 간단한 객체에 중점을 두고 개발되었다. VJ 감지기는 2001년에 Viola와 Jones [8] 는 아무런 제약(예: 피부색 분할) 없이 처음으로 사람 얼굴의 실시간 감지를 달성하여 당시의 타 알고리즘과 비교해 수십 배에서 수백 배 더 빠른 성능을 나타냈다. HOG 검출기는 2005년 Dalal과 Triggs [9]는 HOG의 특징인 설명자를 제안하였다. HOG는 다양한 객체 클래스를 감지하는 데 사용될 수 있지만 주로 보행자 감지 문제에 의해 동기가 부여되어 수년 동안 많은 물체 검출기 및 다양한 컴퓨터 비전 애플리케이션의 중요한 기반이 되었다. DPM은 [10] 2008년 HOG 검출기의 확장으로 개발되어 단순히 객체를 분해하는 적절한 방법을 학습하여 추론은 다양한 객체 부분에 대한 감지 앙상블 진행하였다.
앞선 신경망 구조들은 이미지 분류에 초점을 맞춘 모델들이며, 객체 탐지의 경우 3단계 파이프라인으로 진행된다. 먼저 관심 있는 영역을 찾고 특성을 추출하여 그 특성에 따른 분류를 진행한다. 이 과정을 따른 대표적인 모델로는 R-CNN, Fast R-CNN, Faster R-CNN, YOLO가 있다. R-CNN은 UC 버클리 Ross Girshick이 2013년 소개한 방법으로 사람의 어텐션 메커니즘을 차용하였다. 이미지에 존재하는 ROI(Region of interest)를 찾기 위해 선택적으로 탐색하여 CNN을 통해 ROI에서 특성을 추출한다. 그 후 선형회귀와 서포트 벡터 머신(Support vector machine, SVM)을 연결하여 경계 상자 위치를 정제하고 상자 안에 물체를 추출된 특성을 통해 분류한다. 그 후 Fest R-CNN으로 ROI를 개선하여 단일 모델로 구성하여 계산 복잡도를 줄여 속도가 빨라졌다. 그 밖에 Faster R-CNN 등 성능 개선 연구가 지속되었다.
기존 연구에서 CNN은 전체 이미지 중 개별 ROI, 즉 부분 이미지만 판별하였다. 이와는 다른 방식으로 조셉 레드먼[5]은 2015년 YOLO(You Only Look Once) 모델을 발표했다. YOLO는 사전 훈련된 CNN을 먼저 사용한 후, 이미지를 셀 집합으로 나눈 후 각 셀에 대해 여러 개 경계 상사와 분류 확률을 예측한다. 이 예측값을 사용해 임곗값보다 큰 클래스 확률과 경계 상자(bounding box)를 선택하여 이를 바탕으로 이미지 안에 객체 위치를 찾아낸다. Faster R-CNN보다 월등히 빠른 속도를 보이는 장점이 있다. 하지만 작은 물체 감지하는 데는 한계를 보이며 2023년 현재까지 v8까지 발표하며 정확도와 속도를 개선하고자 하였다.
YOLOv1부터 v8까지 버전별 특징을 정리하면 다음과 같이 정리할 수 있다. YOLOv1[11]은 실시간 객체 검출을 위한 딥러닝 기반의 네트워크이며 각 grid cell은 하나의 class로 예측하고 인접한 cell들이 같은 객체에 대한 Bounding box를 생성할 수 있는 것이 특징이다.
v2[12]는 v1보다 기존의 Darknet을 개선한 Darknet19, dynamic anchor box 제안 등으로 성능이 개선되고 속도도 향상했다.
v3[13]는 기존과 동일 목표로 네트워크 구조와 학습 방법을 개선해 객체 탐지의 정확도와 속도를 개선하였다.
v4[14]는 기존 버전에서 작은 객체 검출을 잘 탐지하지 못하는 문제를 해결하고자 공간 피라미드 풀링과 확장 합성곱 기술을 적용해 정확도와 속도를 개선하였다.
v5[5]는 전작보다도 정확도를 10% 이상 향상하고 모델 크기도 축소했다. 다른 YOLO 모델들과 다른 점은 back bone을 depth multiple과 width multiple을 기준으로 하여 크기별로 나누었다는 것이다. 크기에 따라 정확도의 성능과 속도는 반비례하기에 실제 적용하는 환경에 따라 고를 수 있다는 점이 강점이다.
v7[15]은 훈련 과정에서 최적화를 하여 Trainable bag-of-freebies를 제안하였다. 즉, 딥러닝에서 모델의 성능을 향상하기 위해 적용되는 여러 가지 기술 및 기법들을 무료로 사용 가능한 기술들을 종합적으로 지칭하는 것으로써 다양한 정규화 기술, 초기화 전략, 최적화 알고리즘 등이 포함될 수 있다.
v6[16]는 알고리즘의 효율성을 향상하여 시스템 탑재를 위해 양자화(Quantization)와 지식 증류(Distillation) 방식을 도입하였다. 먼저 양자화는 딥러닝 모델의 가중치와 활성화 함수 등을 표현하는 비트 수를 줄여 모델을 더 작고 경량화된 형태로 만들기 위해 예를 들어 더 낮은 비트수의 정수로 활성화 함수들의 실수를 근사화시켜 메모리 사용을 줄여 계산 속도를 향상해 모바일 기기 등 장치에 배포 시 효율성을 증대를 가져왔다. 그리고 지식 증류는 큰 규모의 딥러닝 모델(선생 모델)로부터 작은 모델(학생모델)을 훈련하는 방법을 통해 모델 성능 개선으로 결국 메모리 요구량을 줄이고자 하는 것으로 큰 모델의 출력 확률 분포, 특성 맵 등을 활용해 작은 모델을 효과적으로 훈련하는 방식이다. 더 적은 데이터를 효과적으로 학습 가능하여 큰 모델의 정확도를 일부 유지하면서 모델 크기를 줄일 수 있는 이점이 있다.
마지막으로 v8[17]은 새로운 저장소를 출시해 객체를 탐지하고자 인스턴스를 세분화하고 이미지 분류 모델 훈련을 위한 통합 프레임을 설계하였다. 실제 YOLO 모델적용 사례는 다양하며 효과적으로 상호작용 중으로 활발히 증가하는 추세이다. 예를 들어 농업과 제조업에서 불량검출과 품질 평가 모델을 적용하여 부족한 자본과 인력 문제를 해결하고 일련의 자동화 과정을 만들 수 있다. 기대한 만큼의 정확도를 가지기 위해서는 고품질 학습 데이터가 필수로 작용한다. 따라서 학습 데이터가 큰 장애물로 다가올 수 있으며 데이터 이외에 필터링 라벨링 등의 가공과정이 필수이다.
1.2 Object tracking
객체 추적 알고리즘은 무선 센서 네트워크(무선 신호), 레이더 또는 카메라(비디오 프레임)와 같은 장치로부터 입력된 2D 또는 3D에서 객체의 위치를 추적한다. 시각적 객체 추적은 3D 프레임 시퀀스를 입력으로 사용하여 대상 객체를 추적하며, 과정은 크게 2가지로 대상 물체의 궤적을 최적화가 목표이다. 첫 번째는 오프라인 추적[18]으로, 시퀀스의 모든 프레임을 앞뒤로 스캔하여 추적 궤적의 전역 최적화를 하는 방법으로 이는 여러 객체 추적 시 쉬운 장점이 있다. 두 번째는 온라인 추적으로, 첫 번째 프레임의 상태를 바탕으로 후속 프레임에서 대상의 상태를 추정하는 것을 목표로 하는 방법이다.
추적기의 종류는 크게 생성 추적기와 판별 추적기로 나뉜다. 템플릿 일치 기반 생성 추적기는 객체를 대상으로 설정하고 유사성 측정 방법을 통해 현재 프레임에서 대상 표현과 이전 템플릿을 일치시킨다. 예시로는 빠른 정규화된 상호 상관 알고리즘이 있다 [19]. 입자 필터 기반 생성 추적기는 상태 공간에서 표본 추출된 입자의 세트를 사용하여 상태 변수의 사후 확률을 근사화한다[20].
분류자 기반 판별 추적기는 대상 객체를 식별하는 분류자를 온라인방식으로 훈련한다. 예시로는 FBT(Feedback transforme), MIL(Multiple instance learning), SST(Structured output tracking) 등이 있다 [21],[22]. 차별적 상관 필터 기반 판별 추적기는 상관 필터를 사용하여 높은 계산 효율성과 적응성을 제공한다.
분류자 기반 딥러닝 추적기로 심층 신경망을 사용하여 특징 표현 학습 후 추적을 위한 분류기를 훈련한다. Siamese 네트워크 기반 추적기는 두 개의 패턴을 비교하기 위해 두 개의 같은 하위 네트워크를 사용하였다. 이 방법은 대표적으로 SiamFC(Siamese fully convolutional networks) [23], SiamRPN(Siamese region proposal network) [24] 등이 있는데, 이들 모델은 실시간 추적 성능을 가지고 일반화 성능이 높다. Deep SORT(Deep simple online and realtime tracking with a deep association metric) [25]는 객체 추적과 동시에 객체 탐지가 가능한 기술로 먼저 객체 탐지 모델을 이용해 입력이미지를 인식하고 객체 위치와 특징을 추출한다. 이후 Kalman 필터와 Hungarian 알고리즘을 이용해 다음 프레임에서 각 객체 위치를 예측 및 추적을 수행한다. 특히 Kalman 필터는 탐지 중에 발생하는 잡음을 처리하는 데 도움을 주고 추적은 측면에서 찍은 이미지와 같이 객체 형태 변형되거나 일부가 가려져도 잘 작동한다는 장점이 있어 현재까지도 대표적인 추적 모델 중 하나이다. RNN 기반 추적기는 순차 데이터 처리에 뛰어난 성능을 보이는 RNN을 활용하여 객체의 움직임을 예측하고 추적 상태에 따라 동작을 선택한다. 주의 메커니즘 기반 추적기는 주의 메커니즘을 활용하여 시공간 정보를 적용하였다. Mask R-CNN은 Faster R-CNN의 구조를 기반으로 객체 분할기능을 추가한 모델로 객체 탐지와 분할 수행 후, 위치와 특징을 추출해 추적을 수행하고 대규모 데이터 세트에서 좋은 성능을 보여준다.
III. The Proposed Scheme
1. Target system
시스템은 차량의 이동 속도가 상대적으로 낮은 지역, 특히 교내 교통 위험 지역을 식별하여 이동 속도를 감시하는 저비용 안전교통 시스템을 개발하는 것을 목표로 한다. 더불어 횡단보도가 있는 지역에서는 차량 운전자와 보행자간 안전을 강화하기 위해 스마트 알림 표지판을 활용하여 교내 안전 교통 시스템을 설계했다. Fig. 1은 A대학교 캠퍼스 지도를 기반으로 하여 총 3가지 위험 구역을 나눈 것을 보여준다. 첫 번째로, 경사가 높은 지역은 오르막길에서 전방 시야가 제한되거나 내리막길에서 가속이 발생하는 구간을 대상으로 하였다. 대부분의 대학교 내 일부 구역이 직진 구간이면서 경사도가 있어 가속 위험이 큰 구역이 존재하는 공통점을 가지고 있다.
Fig. 1. Classification of on-campus traffic danger zones
두 번째 구역은 보행자 통행이 잦은 지역을 대상으로 설정하였으며, 마지막으로 차량과 보행자 통행량이 많은 혼잡한 지역을 고려하였다. 이러한 위험 구역 중에서 한 곳을 선택하여 차량의 구간 속도를 측정하고 교내 횡단보도가 있으며 차량과 보행자 통행이 잦은 구간을 선정하여 차량과 보행자를 식별하고 횡단보도 중심으로 한 구역별 안내를 스마트 표지판과 음성으로 출력하는 시스템을 개발하였다.
2. Vehicle speed measurement system
학교 내부나 회사 등의 환경에서는 고가의 차량 속도 측정 카메라를 설치하기가 어렵다. 보통은 속도 제한을 안내하는 표지판만을 설치하고 있지만, 이를 지키지 않는 운전자들이 많아져 학교나 회사 내 도로에서 보행자들의 안전이 위협받고 있다. 이에 본 연구에서는 비교적 저렴한 가격대의 카메라를 활용하여 차량 속도를 측정하는 시스템을 개발하고자 한다.
2.1 Proposed model
본 수행 과정은 Fig. 2와 같이 스마트폰 카메라를 이용해 실시간 영상으로부터 차량의 객체를 탐지한 후 각 차량의 추적을 통해 통행 지정한 구간 내 속도를 측정하도록 구성하였다. 본 시스템에서 객체 탐지는 YOLOv5 모델을 사용하였으며, 도요타 자동차 이미지는 Kaggle에서 제공하는 공개 데이터로, 해당 데이터는 약 2만 대 이상의 ‘도요타 자동차 이미지’[26]로 소형, 중형, SUV 등으로 Fig. 3에 예시처럼 다양한 차종으로 구성되어 있다. 차량 위치 좌표 주석 작업은 데이터 정제 기능 제공하는 사이트인 Roboflow [27] 을 활용하였다.
Fig. 2. Vehicle velocity measurement system work-flow
Fig. 3. Toyota cars dataset images
객체 탐지 모델의 학습 및 검증은 Google Colab GPU 환경에서 수행하였으며 이미지 크기 640 * 640, 배치 크기 16으로 설정하여 모델 크기에 따라 nano, small, xlarge를 사용하여 추적 속도를 측정하였다. YOLOv5에 다양한 모델들이 존재하는데 nano부터 xlarge까지 모델의 크기 4MB부터 166MB로 구성되며 크기가 커질수록 성능이 좋아지지만, 검출 시 가능한 초당 프레임 수(FPS)가 감소하여 속도 저하가 나타난다.
객체 탐지에서 탐지된 객체를 추적하는 객체 추적은 Kalman 필터와 Hungarian 알고리즘을 활용한 Deep SORT를 적용하여 구현하였다. Table 1. 의 세 모델에 Deep SORT를 적용하였을 때의 FPS(Frame Per Second)는 Table 2. 과 같다. 해당 실험의 성능을 FPS와 정확도, 정밀도 그리고 평균 정밀도(Mean average precision, mAP)를 지표로 나타냈다. 성능지표 중 mAP는 객체 검출 모델 성능 측정하는 지표 중 하나이며 모델이 예측한 객체가 정확한지 측정하는 정밀도를 여러 임곗값에서 평균한 값으로 모델의 전반적인 성능을 요약하여 나타낼 수 있다. 3종류의 모델은 측정 결과는 Table 1.과 같다.
Table 1. Detection & tracking performance
위 결과를 바탕으로 4가지 지표를 고려하여 YOLOv5s 모델을 채택하였다. FPS가 2배만큼 증가하였지만 mAP가 x 모델대비 0.05 소폭 감소하였기 때문이다. 설정한 구간의 속도를 측정하는 방법은 Open CV를 사용해 객체들의 중심좌표가 임의 선을 통과하는 횟수를 집계하여 식1의 계산식을 사용하여 도출하였다.
Velocity = Actual Distance / Duration * 3.6 * α (식1)
위 식1에서 'Actual Distance'는 특정 구간 간의 측정된 이동 거리를 나타내며, 'Duration'은 해당 구간을 통과하는 데 소요된 프레임 수를 FPS로 나눈 값이다. 속도의 단위는 m/s로 한국에서 자동차의 속도 단위인 km/h로 변경하기 위해 3.6을 곱해주었다. 'α'는 출력 영상의 FPS를 객체 추적 중의 FPS로 나눈 비율을 나타내는데, 이는 기기의 성능에 따라 Velocity(속도) 값이 다르게 나오는 것을 조절하기 위한 상수이다.
2.2 Results
해당 시스템 구동 구역은 A 대학교 교내건물 측면 교내 출입 구역인 직진 구간으로 차량과 보행자의 통행이 잦아 혼잡한 구역이다. 건물에 스마트폰 카메라를 설치하여 Fig. 4와 같이 전체 구간이 확보할 수 있는 지점에 카메라를 설치하여 테스트를 진행하였다. 촬영한 카메라는 삼성 갤럭시 S21 광각 1,200만 화소이다. 차량 속도 정답은 차량의 계기판을 기준으로 20에서 40km/h로 상행, 하행으로 진행하였다. 20, 30km/h는 Table 2.에 나타내었다. 전반적으로 검증 결과 40km/h 경우 구간 내 가속으로 진행하여 처음 구간과 끝 구간의 속도가 올바르게 출력이 되는지 확인할 수 있었다.
Fig. 4. System operation experiment
Table 2. Vehicle velocity measurement results for specific section
3. Right-Turn Vehicle Pedestrian Guidance System Development
본 연구에서는 횡단보도 근처 우회전 차량과 보행자를 위한 반응형 교통 시스템을 개발하고자 한다. 차량과 보행자를 인식한 이후 보행자의 위치와 구역간의 상호작용을 통해 운전자에게 보행자가 횡단보도를 통해 길을 건너고 있으면 보행자 횡단 중임을, 보행자 대기지역에 보행자가 3초 이상 있으면 인도를 통해 이동 중인 것이 아닌 길을 건너기 위해 대기하고 있다고 판단하여 보행자 대기 중임을 디스플레이로 표시한다.
3.1 Training Vehicle and Pedestrian Object Detection Models
객체 탐지 모델 학습의 전반적인 과정은 Urban Object Detecton을 참고하였으며 학습 데이터로는 Fig. 5의 MIO-TCD data [28]과 City of Montreal’s open data[28]를 사용하였다. MIO-TCD data는 캐나다와 미국에 배치된 수천 대 교통 카메라로부터 수집된 이미지로 11가지 종류로 라벨링이 붙어있으며, Montreal’s open data는 캐나다 몬트리올시의 공개 데이터로 5종류의 라벨이 존재한다. 본 연구에서는 보행자와 승용차, SUV, 버스 등의 차종과 상관없이 차량 하나로 인식할 수 있게 설정하였으며 객체 탐지 모델은 사전 훈련된 YOLOv5를 활용하여 전이학습을 수행하였다.
Fig. 5. The data used for training object detection models
3.2 Designing Interactions Between Vehicles and Pedestrians Around Crosswalk Areas
교내 차량과 보행자의 통행이 혼잡한 구역 내에서 실시간 영상을 바탕으로 설정한 구역 내 조건에 따라 출력되는 이미지 또는 음성 안내가 되도록 설계하였다.
본 실험의 목적은 보행자가 횡단보도를 안전하게 건너기 위한 것으로 보행자가 횡단보도를 기다리는 인도 구역과 횡단보도를 건너는 구역, 횡단보도 밖 도로를 건너는 구역을 설정하였다. 구동 과정은 다음과 같이 수행된다. 먼저 촬영 구역 내 보행자가 없을 경우는 운전자를 위한 표지판이 출력되지 않으며, 보행자가 횡단보도 인도 구역에 대기 중일 때 Fig. 6의 1번 이미지로 보행자가 있음을 변환하여 출력한다. 차량의 운전자가 보행자를 인지하여 멈추면 보행자는 횡단보도를 건너게 되고 2번처럼 보행 중이라는 이미지가 나타난다. 그 밖에 보행자가 횡단보도 구역 밖 도로를 통해 길을 건너는 경우, 음성 안내 메시지가 출력되며 안전한 구역을 이용하도록 유도하였다.
Fig. 6. Pedestrian Crosswalk Setting: Output System for Different Conditions
3.3 Results
해당 시스템 구동 구역은 A 대학교 교내건물 5층에 로지텍 스트리밍용 웹캠 VU0054 모델(해상도 full HD 1,080p, 60FPS)을 노트북과 연결하여 Fig. 7.처럼 도로와 횡단보도가 촬영이 가능하도록 설치하였으며 출력 모니터는 무선 통신이 가능한 LG 스탠바이미로 화면을 출력하였다. 사용 객체 탐지 모델은 외부에 실시간으로 출력 결과가 반영되어야 하기에 YOLOv5 모델 중 작은 크기인 n와 s크기의 모델을 적용하여 다른 평균 인식 속도와 mAP를 성능 평가로 사용하여 Table 3에 결괏값을 얻었다. 성능지표 중 mAP의 수치가 높으면 객체 탐지 모델의 성능이 좋음을 할 수 있으며 평균 인식 속도가 빠를수록 실시간 대응에 적합하다고 볼 수 있다. 두 모델의 크기 차이는 크지 않지만, 평균 인식 속도가 약 2배 이상 빠르게 인식하므로 실제 적용 모델로 채택하였다.
Fig. 7. A prototype of a smart safety signage system for vehicles and pedestrians at crosswalks
Table 3. Compare model performance results
IV. Conclusions
지능형 교통 시스템은 사고 감지, 사고 확인, 사고 대응, 사고 통신 등 다양한 도구를 사용하여 교통 혼잡을 개선하는 데 필수 요소들입니다. 실제 도심 및 교통 혼잡이 심한 지역 교차로의 차량 속도, CCTV를 통한 보행자를 포함하여 차량의 종류까지 감지하여 자동신호 체계를 통해 혼잡을 줄이는 것이 관련 문헌들의 목표 사항이다. 세부적으로 교통체증 확률 추정을 위한 연구로는 특정 입력 정보들을 바탕으로 혼잡 지수를 통해 진행되어왔으나 개인 정보 보호에 대한 우려와 실제 적용에 도움을 줄 수 있는 여부를 강화하기 위해 블록체인 기반 클라우드 소싱 모델[30]을 개발하여 LSTM(Long Short Term Memory) 신경망을 통해 특정 시간, 특정 위치의 교통 정체 가능성을 예측하게 됩니다. 많은 트랜잭션을 지원하지 못하는 것이 단점이지만 실제로 앱을 통해 높은 참여도와 정확도도 높은 결과를 나타냈다.
반면 관광 및 산업 중심도시에서 신호를 통한 교통 제어시스템을 구현하여 혼잡도를 줄이고자 Al Mamlook et al.[31] 하였다. YOLO는 일정 기간 교차로를 통과하는 차량의 속도를 계산과 동시에 보행자를 포함하여 차량의 종류 등을 감지하는 데 사용된다. CNN은 영상처리 과정에서 차량 정체를 파악하고 대응하기 위해 사용하였다. 추가로 교통 혼잡을 해결하기 위해 그래프 신경망(GNN)을 활용하였다. 이 모델은 노드 분류이며 노드와 그래프로 표시한 도로망으로 유량 데이터를 파악하여 신호등 조율을 통해 문제를 해결하고자 하였다.
본 연구는 교통 혼잡에 대한 목적보다는 보행자의 안전과 차량의 운전자에 원활한 의사소통을 개선하고자 하는 방향을 목적으로 설정하였다. 결과적으로 교내 보행자의 교통사고를 줄이고 안전한 환경을 만들기 위해 교내 위험구간을 설정하여 지정 구간의 차량의 속도 측정과 교차로의 횡단보도 구역에서 차량의 운전자와 보행자 간의 상호작용을 위해 여러 구역을 설정하여 실시간 객체 탐지 조건별 출력 안내 시스템 설계를 구현하였다.
먼저 구간 속도 측정을 위해 YOLOv5s 모델을 사용하여 차량을 탐지한 후 Deep SORT 방식을 활용해 추적하였으며 실제 촬영 화면에 가로수가 있어 도로와 차량이 가려져 있는 부분도 해당 차량의 추적 및 속도 측정이 가능함을 보여주었다. 그리고 횡단보도 구역이 있는 장소에서 YOLOv5s 객체 탐지 모델을 사용해 차량과 보행자를 인식 후 설정한 구역 내 조건별 출력 시스템을 설계하여 보행자의 유무 파악과 길을 건너는 행위를 구분할 수 있도록 실시간으로 대응할 수 있도록 구현하였다. 일반 스마트폰의 카메라 또는 화상용 카메라를 활용하여 교통 과속 카메라의 가격보다 훨씬 낮은 가격으로 설치할 수 있으며 추후 해당 구역의 지정 속도를 설정하여 그 이상일 경우 속도를 줄일 수 있도록 표지판을 설치하여 더욱 안전한 교내 교통시스템을 구현할 수 있다. 이처럼 대학뿐만 아니라 아파트 단지 등 차량과 보행의 통행 혼잡으로 사고 유발 구역에 본 시스템을 도입한다면 보다 차량과 보행자가 더욱 안전한 생활을 할 수 있는 환경이 갖춰질 것으로 기대된다.
ACKNOWLEDGEMENT
This research was supported by "Regional Innovation Strategy(RIS)" through by the National Research Foundation of Korea (NRF) by the Ministry of Education(MOE) (2021RIS-004 )
References
- Korea Road Traffic Authority(2022), Changes in Road Traffic Law Centered on Pedestrians (Effective from July 12, 2022)
- Chen, F., Wang, X., Zhao, Y., Lv, S., & Niu, X. (2022). "Visual object tracking: A survey", Computer Vision and Image Understanding, 222, 103508. DOI: 10.1016 https://doi.org/10.1016
- Girshick, R. (2015), "Fast r-cnn", In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448).
- He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). "Mask r-cnn", In Proceedings of the IEEE international conference on computer vision (pp. 2961-2969).
- Ultralytics, "YOLOv5", https://github.com/ultralytics/yolov5
- Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). "SSD: Single shot multibox detector", In Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part I 14 (pp. 21-37). Springer International Publishing. DOI: 10.1007
- Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollar, P. (2017). "Focal loss for dense object detection", In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988).
- Wang, Y. Q. (2014). "An analysis of the Viola-Jones face detection algorithm", Image Processing On Line, 4, 128-148. DOI:10.5201 https://doi.org/10.5201
- Dalal, N., & Triggs, B. (2005, June). "Histograms of oriented gradients for human detection", In 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05) (Vol. 1, pp. 886-893). Ieee. DOI: 10.1109/CVPR.2005.177
- P. Felzenszwalb, D. McAllester and D. Ramanan, "A discriminatively trained multiscale deformable part model", Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 1-8, Jun. 2008. DOI: 10.1109/CVPR.2008.4587597
- Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). "You Only Look Once: Unified, Real-Time Object Detection.", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
- Redmon, J., & Farhadi, A. (2017). "YOLO9000: Better, Faster, Stronger.", arXiv preprint arXiv:1612.08242.
- Redmon, J., & Farhadi, A. (2018). "YOLOv3: An Incremental Improvement.", arXiv preprint arXiv:1804.02767.
- Bochkovskiy, A.; Wang, C.Y.; Liao HY, M. "YOLOv4: Optimal Speed and Accuracy of Object Detection.", arXiv 2020, arXiv:2004.10934.
- Wang, C.Y.; Bochkovskiy, A.; Liao HY, M. "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors.", arXiv 2022, arXiv:2207.02696.
- Li, C.; Li, L.; Jiang, H.; Weng, K.; Geng, Y.; Li, L.; Wei, X. "YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications.", arXiv 2022, arXiv:2209.02976.
- Reis, D., Kupec, J., Hong, J., & Daoudi, A. (2023). "Real-Time Flying Object Detection with YOLOv8." arXiv preprint arXiv:2305.09972.
- Smeulders, A. W., Chu, D. M., Cucchiara, R., Calderara, S., Dehghan, A., & Shah, M. (2013). "Visual tracking: An experimental survey.", IEEE transactions on pattern analysis and machine intelligence, 36(7), 1442-1468. DOI: 10.1109/TPAMI.2013.230
- Briechle, K., & Hanebeck, U. D. (2001, March). "Template matching using fast normalized cross correlation.", In Optical Pattern Recognition XII (Vol. 4387, pp. 95-102). SPIE. DOI:10.1117/12.421129
- Isard, M., & Blake, A. (1998). "Condensation-conditional density propagation for visual tracking.", International journal of computer vision, 29(1), 5-28. DOI:10.1023 https://doi.org/10.1023
- Babenko, B., Yang, M. H., & Belongie, S. (2010). "Robust object tracking with online multiple instance learning.", IEEE transactions on pattern analysis and machine intelligence, 33(8), 1619-1632. DOI: 10.1109/TPAMI.2010.226
- Hare, S., Golodetz, S., Saffari, A., Vineet, V., Cheng, M. M., Hicks, S. L., & Torr, P. H. (2015). "Struck: Structured output tracking with kernels.", IEEE transactions on pattern analysis and machine intelligence, 38(10), 2096-2109.
- Bertinetto, L., Valmadre, J., Henriques, J. F., Vedaldi, A., & Torr, P. H. (2016). "Fully-convolutional siamese networks for object tracking.", In Computer Vision-ECCV 2016 Workshops: Amsterdam, The Netherlands, October 8-10 and 15-16, 2016, Proceedings, Part II 14 (pp. 850-865). Springer International Publishing. DOI: 10.1109/TPAMI.2015.2509974
- Li, B., Yan, J., Wu, W., Zhu, Z., & Hu, X. (2018). "High performance visual tracking with siamese region proposal network.", In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 8971-8980).
- Wojke, N., Bewley, A., & Paulus, D. (2017). "Deep SORT: simple online and realtime tracking with a deep association metric.", arXiv preprint arXiv:1703.07402.
- Occultainsights, "Toyota cars over 15k labeled car images", https://www.kaggle.com/datasets/occultainsights/toyota-cars-over-20k-labeled-images, DOI: 10.34740/kaggle/ds/436960
- Roboflow, https://roboflow.com/
- Z. Luo, F.B.Charron, C.Lemaire, J.Konrad, S.Li, A.Mishra, A. Achkar, J. Eichel, P-M Jodoin MIO-TCD: A new benchmark dataset for vehicle classification and localization in press at IEEE Transactions on Image Processing, 2018, DOI: 10.1109 https://doi.org/10.1109
- Ville de Montreal, "Images annotated by cameras in circulation", https://donnees.montreal.ca/ville-de-montreal/images-annotees-cameras-circulation
- Hassija, V., Gupta, V., Garg, S., & Chamola, V. (2020). "Traffic jam probability estimation based on blockchain and deep neural networks." IEEE Transactions on Intelligent Transportation Systems, 22(7), 3919-3928. DOI: 10.1109/TITS.2020.2988040
- Al Mamlook, R. E., Zahrawi, M., Gharaibeh, H., Nasayreh, A., & Shresth, S. (2023, May). "Smart Traffic Control System for Dubai: A Simulation Study Using YOLO Algorithms.", In 2023 IEEE International Conference on Electro Information Technology (eIT) (pp. 254-264). IEEE. DOI: 10.1109/eIT57321.2023.10187271