DOI QR코드

DOI QR Code

A Dangerous Situation Recognition System Using Human Behavior Analysis

인간 행동 분석을 이용한 위험 상황 인식 시스템 구현

  • Park, Jun-Tae (Dept. of Computer Engineering, Kumoh National Institute of Technology) ;
  • Han, Kyu-Phil (Dept. of Computer Engineering, Kumoh National Institute of Technology) ;
  • Park, Yang-Woo (Dept. of Aeronautics & Software Engineering, Kyungwoon University)
  • Received : 2020.09.08
  • Accepted : 2021.02.16
  • Published : 2021.03.31

Abstract

Recently, deep learning-based image recognition systems have been adopted to various surveillance environments, but most of them are still picture-type object recognition methods, which are insufficient for the long term temporal analysis and high-dimensional situation management. Therefore, we propose a method recognizing the specific dangerous situation generated by human in real-time, and utilizing deep learning-based object analysis techniques. The proposed method uses deep learning-based object detection and tracking algorithms in order to recognize the situations such as 'trespassing', 'loitering', and so on. In addition, human's joint pose data are extracted and analyzed for the emergent awareness function such as 'falling down' to notify not only in the security but also in the emergency environmental utilizations.

Keywords

1. 서론

최근 각종 강력 범죄 및 방화사건이 빈번히 발생함에 따라 사회 안전에 대한 관심이 높아지고 있다. 침입자 및 화재 탐지 등 안전 예방을 위한 가장 효과적인 방법은 동작, 연기 및 열감지 센서를 이용하는 방법일 수 있지만, 이는 모든 감시환경에 센서를 설치해야 하므로 구현에 있어서 효과적이지 않다고 볼 수 있다. 그러므로 현재 상황에서 가장 보편적인 접근 사례는 CCTV를 활용하는 것이라고 할 수 있다. 대부분의 지자체에서는 CCTV통합관제센터를 개별적으로 운영하여 방범/방재 등의 서비스를 실시하고 있으며, 지역 통합관제센터와 연계된 CCTV의 수는 급격히 증가하고 있는 추세이지만, 이를 관제하는 인력은 부족하여 관제 품질에 대한 우려의 목소리가 나오고 있다[1]. 하지만 지능형 CCTV기술의 발전으로 지금까지 인력에 의존했던 CCTV관제를 일부 영역에서는 지능형 정보기술 시스템으로 대체하는 움직임이 영국에서 시작되었으며[2], 최근 인공지능 관련 하드웨어 성능 향상과 딥러닝(deeplearning) 기술의 발전으로 합성곱 신경망(CNN:convolutional neuralnetwork)을 사용한 객체 인식, 검출, 인간 자세 추정 기술이 지능형 CCTV에 적용되고 있다. 초기 대부분의 딥러닝 인식기법들은 정지 사진에 기초한 방식이었으며 복합적이거나 장기간의 상황을 제대로 인식하지 못하는 단점이 있어 순차적 이벤트의 인식을 위한 RNN( recurrentneuralnetworks)개념의 개선된 LSTM(longshort-termmemorymodels) 이 많이 활용되고 있지만, 속도가 느리고 메모리 관리가 어렵다는 단점이 있다[3-5]. 그 결과, 보다 복잡한 상황을 인식하기 위한 지능형 인식 및 인증 서비스 시스템이 도래하게 되었으며, 향후 지능적으로 상황을 인식하는 기술들이 보편화될 것으로 예상된다. 따라서, 본 논문에서는 딥러닝 기반의 객체 인식과 분석 및 자세 추정 기법을 적용하여 방재, 방범을 위한 특정 위험 사건인 ‘배회(loitering)’와 ‘침입(tre- spassing)’, 그리고 ‘쓰러짐(fall-down)’과 같은 응급행동까지 인식하여 위험 감시환경뿐만 아니라, 응급상황에도 활용될 수 있는 인식 알고리즘을 제안하려고 한다.

2. 관련 기술 및 연구

2.1 객체 검출

객체 검출(object detection)은 디지털 이미지나 비디오에서 분류 클래스에 속한 인스턴스를 탐지하는 기술이다. 모든 객체는 자신의 클래스로 분류되는 고유한 특징을 가지기 때문에, 찾고자 하는 객체의 특징을 주어진 영상에서 잘 검출해야만 한다. 객체를검출하는 방법으로는 주로 기계학습(machinelearning)기반법과 딥러닝 기반 방법이 있다. 기계학습기반의 객체 검출은 Haar-likefeature, HOG(histogramoforientedgradient)[6]와 같은 방법으로 특징을 추출하고 특징들의 분포를 Adaboost, SVM(supportvectormachine)등의 기계학습 알고리즘으로 분석한 후 객체를 분류한다. 딥러닝 기반 객체 검출은 CNN을 사용하여 이미지 내부에서 많은 후보 패치를 학습기법으로 인식하는 방법이다. 대표적인 딥러닝 기반 객체 검출 방법으로는 region proposal 기반의 R-CNN(regionswithCNNfeatures)[3] 방법과 single network 기반의 YOLO(you only look once)[4]방법이 있다.R-CNN은 영상에서 단일 프레임이나 사진을 입력받은 후 selective search 알고리즘으로 많은 regionproposal을 추출한다[7]. 추출한 각 regionproposal을 입력 이미지로부터 잘라내고 동일한 크기로 재조정하여 CNN을 활용해 각 proposal의 feature를 계산한다. 이후 각 regionproposal feature에 대한 분류(classification)결과와 경계 박스(boundingbox)regression을 계산하여 객체를 검출한다.R-CNN의 경우 정확도는 높다고 할 수 있으나, 각 proposal 개수만큼 CNN연산을 적용하기 때문에 속도가 느려 실시간 영상에서는 적용하기 어려운 점이 있다. 이에 반해 singlenetwork기반의 YOLO는 객체 검출 문제를 하나의 회귀 문제로 생각하고 물체의 경계 박스 좌표와 물체 클래스로 분류될 확률을 예측한다.R-CNN과 달리 입력 이미지를 regionproposal로 나누어 분류하지 않고 크기를 416× 416으로 재조정하여 CNN의 입력으로 사용함으로써, 검출하고자 하는 객체의 각 경계 박스마다 위치 (x, y)와 크기(height, width), 해당 객체의 신뢰 값 (confidencescore)을 계산한다. 이 신뢰값은 각 격자에 물체가 없을 경우 0으로 계산되며, 물체가 있을 경우 예측된 경계 박스와 실제 경계 박스와의 일치 비율을 계산하여 입력 이미지의 객체영역에 경계 박스를 그려준다. 이러한 end-to-end 학습을 통해 실시간 검출을 가능하게 하였으며, YOLO 9000[8], YOLOv3[9]모델에서는 dropout과 batch normalization 적용 및 여러 개선점이 반영되어 초기 모델보다 속도와 정확도를 향상시켰다. Fig.1을 살펴보면, YOLO의 지속적인 연구를 통해 검출모델의 정확성 및 계산 성능이 높아진 것을 확인할 수 있으며, 본 논문에서는 사람 객체를 검출하기 위해 YOLO v3 모델을 사용한다.

MTMDCW_2021_v24n3_345_f0001.png 이미지

Fig. 1. Comparison of deep learning based object detection. (a) YOLO performance and (b) YOLO v3 computation.

2.2 객체 추적

객체 추적(object tracking)은 입력 영상에서 사람이나 동물, 차량 등의 특정한 객체의 위치 변화를 탐색하는 기술이다. 영상의 각 프레임 내에서 객체의 크기, 색, 모양, 윤곽선 등 객체의 특징적인 정보 간의 유사도를 활용하여 객체의 위치 변화를 추적한다. 객체 추적 알고리즘 중 하나인 중심 추적(centroid tracking)알고리즘은 검출된 객체의 중심 위치 비교를 통해 객체의 움직임을 추적하는 방법이다. 입력영상의 모든 단일 프레임에서 검출된 객체에 대한 경계 박스 좌표를 객체 추적기에 전달하고, 이때 객체 추적기는 현재 프레임에서 기존 객체의 경계 박스 중심과 다음 프레임에서의 새로운 객체의 중심 간 유클리드 거리 및 경계 박스간의 교차비율이 가장 높은IOU(intersectionoverunionmatric)를 계산하여 객체의 이동을 추적한다.

2.3 딥러닝 기반 자세 추정

사람의 자세 추정(poseestimation)은 사람의 관절 위치를 측정하여 신체의 구조적 상태를 예측하는 것이다. 그러므로, 사람 객체에 골격 모델을 사상하여 나타낼 수 있으며, 추정 방식은 하향식과 상향식으로 나눌 수 있다. 하향식은 입력 영상에서 객체를 검출한 후, 경계 상자 내부에서 자세를 추정하는 방식이며, 상향식은 영상에 포함된 객체들의 관절 위치를 모두 추정한 후 각 위치 간의 연관성을 분석하여 자세를 추정하는 방식이다. 딥러닝 기반 자세 추정 기법은 OpenPose[10], AlphaPose[11]와 같은 자세 추정 기법이 대표적이라 할 수 있다.

3. 제안한 방법

제안한 딥러닝기반 위험 상황 인식시스템은 Fig. 2에서처럼 두 가지 모듈로 구성되며, 하나는 ‘기립 (standing)’, ‘착석(sitting)’ 및 ‘쓰러짐’과 같은 응급행동을 인식하는 모듈이고 나머지는 ‘배회’ 및 ‘침입’ 등 위험 사건을 인식하는 모듈이다. 본 논문에서는 응급 행동과 위험사건을 위험 상황이라고 정의하였고, 위험 사건 인식은 한국인터넷진흥원의 지능형 인식 및 인증 시나리오[1]와 같은 방식으로 입력 영상에서 위험구역 또는 관심 영역에 해당하는 부분인 ROI(regionof interest)에서 판단하게 하였다. 제안한 시스템의 동작 순서는 입력 비디오에서 매 프레임마다 YOLOv3에 의해 사람 객체를 검출하고, 검출된 사람 객체는 일정 크기로 재조정되어 각 모듈로 입력된다.먼저 응급 행동 인식은 사람 객체에 Open Pose를 적용하여 골격 모델을 사상한 후, 기본 관절 데이터에서 ‘기립’, ‘착석’ 및 ‘쓰러짐’을 효과적으로 구분할 수 있는 4가지 특징을 제시하고 그 특징에 기계학습 알고리즘인 최근접이웃(KNN:k-nearest neighbor)기법을 적용함으로써 특정 행동을 인식한다. 그리고 위험 사건 인식 모듈에서는 검출된 각 사람 객체별로 위치와 시간을 추출하여 ‘배회’ 및 ‘침입’ 과 같은 위험 행위를 인식한다.

MTMDCW_2021_v24n3_345_f0002.png 이미지

Fig. 2. Configuration of the proposed recognition system.

3.1 응급 행동 인식

응급 상황을 인식하기 위해서는 사람의 특정 행동에 대한 정의를 필요로 한다. 그러므로, 본 논문에서는 일반적인 상황인 ‘기립’과 ‘착석’ 그리고 응급 상황인 ‘쓰러짐’ 상태로 행동을 나누었다. 일반적인 상황 중 ‘기립’의 경우는 서 있는 행동, ‘착석’의 경우는 의자 또는 바닥에 앉아있는 행동으로 정의하고, 위험 행동인 ‘쓰러짐’의 경우는 사람이 바닥에 쓰러진 행동으로 정의한다. 이들 행동을 인식하기 위해 사용된 KNN분류기의 학습 및 테스트 데이터 세트는 Fig. 3(a)에서와 같이 NTU RGB+D[12]를 사용하였다. NTURGB+D데이터 세트는 총 114, 480개의 RGB 비디오 영상으로 제공하고 있으며 120개의 행동 클래스로 분류되어 있다. 데이터 세트 영상 중 ‘stand up’, ‘sitdown’, ‘falldown’ 클래스에 해당하는 영상을 입력 영상으로 사용하여 각 관절의 위치를 통해 행동 특징을 추출한다.Fig.3(b)에 표기된 여러 개의 기본 관절 데이터 중 머리(0), 목(1), 왼쪽 허리(8), 오른쪽 허리(11), 왼쪽 무릎(9), 오른쪽 무릎(12), 왼발(10), 오른발(13)의 관절 데이터를 조합하여, 본 논문에서 인식하려는 응급 상황 행동 분류를 위한 4개의 특징을 생성하였다.

MTMDCW_2021_v24n3_345_f0003.png 이미지

Fig. 3. Action dataset. (a) NTU RGB+D dataset and (b) Used joint keypoints.

행동 분류를 위한 특징 1과 2는 머리 좌표 (head_ x, head_y)와 발 좌표 (foot_x, foot_y)를 활용한다. 특징 1은 머리 좌표와 발 좌표 간의 유클리드 거리와 수직 방향의 y축 좌표의 높이 차이를 활용한다.Fig. 4(a)를 보면 알 수 있듯이 쓰러짐이 발생하면 유클리드 거리는 크게 존재하지만, 머리와 발의 높이의 차이는 매우 작아지게 된다. 특징 2는 쓰러짐의 각도를 알기 위해서, Fig.4(b)에서처럼 발, 머리 그리고 머리의 수직 투영 좌표인 세점 간의 사잇각을 계산한다.

MTMDCW_2021_v24n3_345_f0004.png 이미지

Fig. 4. Extraction of emergency action features, F1 and F2. (a) F1 and (b) F2.

특징 3과 4는 Fig.5와 같이 목 좌표 (neck_x, neck_ y), 허리 좌표(hip_x, hip_y), 무릎 좌표(knee_x, knee_y), 그리고 발 좌표를 사용하여 2개의 사잇각을 계산하여 특징을 추출한다. 특징 3은 목, 허리, 무릎의 관절 데이터를 사용하고 특징 4는 허리, 무릎, 발의 관절 데이터를 사용함으로써 허리를 굽히거나 무릎을 굽히는 행동과 같이 자세를 낮추는 행동에 강건한 특징으로 사용될 수 있다. 특징 1은 Eq.(1)을 사용하여 추출하였으며, 여기서 (x1, y1)은 발 좌표 (x2, y2)는 머리 좌표이고 영상에서 사람의 크기가 다양하므로 각 거리의 비율로 정의하였다. 특징 2, 3, 4는 Eq. (2)를 사용하여 중심점과 나머지 두 점의 차이 벡터(\(\vec{u}\), \(\vec{v }\))를 계산하여 세점 사이의 각도를 추출하게 된다.

MTMDCW_2021_v24n3_345_f0005.png 이미지

Fig. 5. Extraction of emergency action features, F3 and F4. (a) F3 and (b) F4.

\(F_{1}=\frac{y_{2}-y_{1}}{\sqrt{\left(x_{2}-x_{1}\right)^{2}+\left(y_{2}-y_{1}\right)^{2}}}\)       (1)

\(F_{2,3,4}=\cos ^{-1}\left[\frac{\vec{u} \cdot \vec{v}}{|\vec{u}||\vec{v}|}\right]\)        (2)

3.2 위험 사건 인식

본 논문에서는 ‘침입’ 및 ‘배회’를 위험 상황으로 정의하고 해당 상황을 인식하는 방법을 제안한다. 1 명 이상의 사람이 특정 영역에 침입하는 경우를 침입상황으로, 그 영역에서 일정 시간 이상 머무를 경우 배회상황으로 정의하였다. 입력 영상에서 특정 ROI 설정을 통해 경계 박스 위치 정보를 획득할 수 있으며, ROI경계 박스의 위치는 시작 좌표(x, y), 가로 (w)와 세로(h)값으로 표현된다. 또한, YOLO객체검출기에 의해 검출하게 되면 위치 정보를 손쉽게 획득할 수 있으며, 이때 경계 박스의 위치는 시작 좌표(x', y'), 가로(w')와 세로(h')값으로 표현된다. 객체 추적기는 경계 박스 위치정보를 가지고 입력 영상에서 검출된 사람을 추적하며, Eq. (3), (4)와 같이 해당 위치정보가 ROI에 포함되는 여부와 ROI에 머무르는 시간을 계산하여 침입과 배회 상황을 인식한다. 여기서, RBox는 설정된 ROI 경계 박스, 검출된 경계 박스는 DBox, t는 ROI에 머무르는 시간, T는 배회를 결정하는 문턱치 값을 각각 나타낸다.Fig. 6은 ‘침입’상황과 ‘배회’상황 인식에 대한 예이며, (a)와 (b)의 경우 관심영역 침입 전후 상황을 확인할 수 있고 (c)와 (d)에서는 관심영역 침입 후 시간 문턱치 T이상 머물렀을 때 발생하는 배회상황 결과를 확인할 수 있다.

MTMDCW_2021_v24n3_345_f0006.png 이미지

Fig. 6. Examples of dangerous event recognitions. (a) Before trespassing, (b) After trespassing, (c) Before loitering, and (d) After loitering.

\(f(R\ B o x, D\ B o x)=\left\{\begin{array}{ll} \text { trespass if } D \text { Box } \subset R \text { Box } \\ \text { nothing } \text { otherwise } \end{array}\right.\)        (3)

\(f(R\ \operatorname{Box},(D\ B o x, t))=\left\{\begin{array}{l} \text { loiter } \text { if } D \text { Box } \subset R \text { Box and } t \geq T \\ \text { nothing otherwise } \end{array}\right.\)        (4)

4. 실험 결과 및 고찰

4.1 응급 행동 인식

제안한 인식시스템 설계에 사용된 데이터는 NTU RGB+D데이터 세트에서 추출한 194개의 행동 특징 데이터 중 80%(155개)를 훈련 데이터로, 20%(39개) 는 시험 데이터로 사용하였고 여기서 추출된 응급행동 특징들의 통계값을 Table1에 나타내었다. ‘기립’ 행동 클래스의 특징별 평균은 0.9756(F1), 0.0959 (F2), 0.278(F3), 0.6586(F4)로 추출되었다. ‘착석’클래스는 0.9723(F1), 0.1241(F2), 0.5840(F3), 0.3487 (F4), ‘쓰러짐’ 클래스는 0.9723(F1), 0.1241(F2), 0.5840(F3), 0.3487(F4)로 크기가 조정되어 추출되었으며, 각 특징들은 행동 클래스를 분류하기 위한 대푯값으로 사용한다. Table1에 음영이 표기된 값은 다른 행동들과 구분하기에 충분히 큰 값의 차이가 나타나고 있음을 알 수 있으므로 효과적인 분류가 가능하다.예를 들어, 특징1(F1)을 살펴보면 머리-바닥 거리와 머리-발까지의 거리의 비율이므로 ‘쓰러짐’의 경우 0.4176로 다른 클래스가 거의 1에 가깝기 때문에 ‘쓰러짐’을 구분하기에 매우 좋은 특징으로 설계되었다고 할 수 있다. 또한 ‘쓰러짐’은 위급상황이므로 다른 상황보다 1개의 특징이 더 활용되어 인식률을 높혔는데, 바로 특징2로 머리-발의 각도이다. Table1에서 보면, 특징2는 ‘기립’과 ‘착석’의 경우 수직에 가깝지만, ‘쓰러짐’의 경우는 큰 각도값을 가진다. 이는 Fig.7을 통해 학습 데이터에서 행동 클래스에 해당하는 특징을 추출한 결과를 확인할 수 있다. 사용된 4개의 특징 외에 관절 데이터에서 많은 특징을 추출하여 특징 분포를 분석하였고, 그 중에서 제안한 방식은 Fig.8에서 보는 것과 같이 각 클래스의 분포가 잘 구분되는 것을 채택하여 사용하였다.

Table 1. The distribution characteristics for emergency action features.

MTMDCW_2021_v24n3_345_t0002.png 이미지

MTMDCW_2021_v24n3_345_f0007.png 이미지

Fig. 7. Emergency action feature examples. (a) Standing, (b) Sitting, and (c) Fall-down.

MTMDCW_2021_v24n3_345_f0008.png 이미지

Fig. 8. Distribution of feature maps for emergency actions.

응급 행동 분류에는 앞서 언급한 것과 같이 KNN 알고리즘을 사용하여 ‘기립’, ‘착석’, ‘쓰러짐’3개의 클래스로 분류하는 실험을 진행하였고, 근접 이웃의 거리 측정 방법은 유클리드 거리를 사용하였으며 Table 2와 Fig.9를 통해 K 변화에 따른 모델의 결정 경계 변화와 정확도를 확인할 수 있다.Table2에서 K가 증가할수록 복잡한 경계가 완만해지는 것을 확인할 수 있으며 Fig.9를 통해 K가 19일 때 95%의 정확도로 가장 높게 나온 것을 확인할 수 있다.

Table 2. k-decision boundary on emergency action features.

MTMDCW_2021_v24n3_345_t0003.png 이미지

MTMDCW_2021_v24n3_345_f0009.png 이미지

Fig. 9. Emergency action training result.

응급 행동 인식 결과를 확인하기 위해 행동 특징을 추출한 학습 데이터 영상이 아닌 CCTV및 웹캠과 같은 실시간 영상 환경에서 최종 테스트를 진행하고 결과를 확인하였다. Fig.10에서 실험 결과를 나타내었으며 특정 응급 행동을 잘 인식하는 것을 볼 수 있다.일반적인 상황 ‘기립’, ‘착석’행동은 파란색과 초록색의 경계 박스로 표시하고 응급 행동인 ‘쓰러짐’ 행동은 빨간색 경계 박스로 표시하였다.

MTMDCW_2021_v24n3_345_f0010.png 이미지

Fig. 10. Experimental results for emergency actions recognition. (a) Standing, (b) Sitting, and (c) Fall-down.

4.2 위험 사건 인식

침입 상황은 사람의 몸 전체가 ROI에 진입한 시각부터 이벤트가 발생하며, 입력 영상에서 검출된 사람의 영역이 ROI에 포함되지 않으면 경고를 알리지 않고 ROI에 포함될 경우 침입 상황으로 인식하여 경고를 알릴 수 있도록 구현하였다. Fig.11(a)는 검출된 사람이 ROI에 포함되어 있지 않으므로 침입 상황이라 인식하지 않고, (b)에서 ROI에 포함되어 침입 상황으로 인식하는 것을 확인할 수 있다.

MTMDCW_2021_v24n3_345_f0011.png 이미지

Fig. 11. Emergency event recognition results. (a) Before trespassing and (b) After trespassing.

배회 상황은 ROI 영역에 사람의 몸 전체가 진입한 후 경과 시간을 계산하며, 시간 문턱치 10초를 경과한 시각부터 이벤트가 발생하여 배회 상황을 인식하도록 하였다. Fig.12(a)에서 ROI 영역에 검출된 사람이 포함되어 있지만 배회 시간이 문턱치값 미만이므로 배회 상황으로 인식하지 않으며, (b)에서는 배회 시간이 문턱치값 이상이므로 배회 상황으로 인식하는 것을 확인할 수 있다.

MTMDCW_2021_v24n3_345_f0012.png 이미지

Fig. 12. Emergency environment recognition results. (a) Before loitering and (b) After loitering.

4.3 고찰

실험에 사용된 컴퓨터는 주기억장치 16GB, CPU i7-8700이며, 최대한 처리속도를 높이기 위해 GPU 라이브러리 CUDAv10.0/GPUGTX1050을 사용하였다. 속도 저하의 주된 요인은 IPCCTV 카메라의 입력지연과 openPose의 스켈레톤 사상에서 많은 시간이 소요되었다.HD급 화질의 경우 비디오 입력에서 평균 23fps 속도를 나타내었고 OpenPose의 스켈레톤 사상에서 15fps 프레임율을 보였다. 또한 인식시스템 설계에 사용된 학습 데이터가 155개로 다소 부족한 면이 있다고 할 수 있으므로, 전체적인 실시간 인식 시스템의 성능을 향상시키려면 비디오 전송속도 개선과 빠른 골격추출 및 많은 학습 데이터를 통한 인식률 제고가 필요하다.

5. 결론

본 논문에서는 딥러닝 기반 객체 분석 기법을 적용한 위험 상황 인식 시스템을 제안하였다. 제안한기법은 ‘기립’, ‘착석’ 및 ‘쓰러짐’과 같은 응급 행동을 인식하는 기능과 ‘배회’ 및 ‘침입’ 등 위험사건을 인식하는 기능을 포함하여 응급환경뿐만 아니라 방범 환경에서도 활용할 수 있는 인식 시스템을 개발하였다. 제안한 방식은 딥러닝 기반 객체 검출 알고리즘 YOLOv3를 적용하여 실시간 사람 객체를 추출하고, 골격 모델을 사상한 후 사람의 관절 데이터를 추출하여 ‘기립’, ‘착석’ 및 ‘쓰러짐’을 효과적으로 구분할 수 있는 4개의 특징을 제시하였다. 또한, 객체 추적을 적용하여 ‘배회’ 및 ‘침입’과 같은 위험사건을 인식하여 전체적으로 위험 상황을 인식하는 시스템을 제안하였고, 실험에서 응급상황과 위험사건이 잘 인식되었으며, 15fps 이상의 인식 프레임율을 나타내었다. 향후에는 제안한 시스템의 속도를 높이는 방법에 대한 연구가 필요하다고 할 수 있다. 왜냐하면, Open Pose의 골격 사상에서 많은 계산이 요구되므로 초기사상 후 이전 데이터를 연계하여 빠른 골격 예측을 통해 프레임율을 높이는 것이 필요하다. 또한, 위험 상황 판단 정확도를 높이기 위해서 사용된 NTU 데이터 세트 외 추가 데이터를 학습하여 좀 더 강건한 지능형 인식 시스템이 되도록 할 예정이다.

References

  1. A Service of the Smart CCTV Performance Certification, Korea Internet & Security Agency (2016). https://www.kisa.or.kr/business/infor/inforcert_5.jsp (accessed Sept. 20, 2020).
  2. Imagery Library for Intelligent Detection Systems (i-LIDS) User Guide, A Standard for Testing Video Based Detection Systems, Home Office Scientific Development Branch, United Kingdom(2011). https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/143875/ilidsuser-guide.pdf (accessed Sept. 20, 2020).
  3. R. Girshick, J. Donahue, T. Darrell1, and J. Malik, "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587, 2014.
  4. J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You Only Look Once: Unified, Real-time Object Detection," Proceedings of the IEEE Conference on Computer Vision and P attern Recognition, pp. 779-788, 2016.
  5. A. Tealab, "Time Series Forecasting Using Artificial Neural Networks Methodologies: A Systematic Review," Future Computing and Informatics Journal, Vol. 3, No. 2, pp. 334-340, 2018. https://doi.org/10.1016/j.fcij.2018.10.003
  6. N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 886-893, 2005.
  7. I. Ansari, Y. Lee, Y. Jeong, and J. Shim, "Recognition of Car Manufacturers using Faster R-CNN and Perspective Transformation," Journal of Korea Multimedia Society, Vol. 21, No. 8, pp. 349-356, 2018.
  8. J. Redmon and A. Farhadi, "YOLO9000: Better, Faster, Stronger," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7263-7291, 2017.
  9. J. Redmon and A. Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv: 1804.02767(2018). https://arxiv.org/abs/1804.02767 (accessed Sept. 20, 2020).
  10. Z. Cao, T. Simon, S. E. Wei, and Y. Sheikh, "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7291-7299, 2017.
  11. H. S. Fang, S. Xie, Y. W. Tai, and C. Lu, "Rmpe: Regional Multi-Person Pose Estimation," Proceedings of the IEEE International Conference on Computer Vision, pp. 2334-2343, 2017.
  12. A. Shahroudy, J. Liu, T. T. Ng, and G. Wang, "NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1010-1019, 2016.