DOI QR코드

DOI QR Code

Garbage Dumping Detection System using Articular Point Deep Learning

관절점 딥러닝을 이용한 쓰레기 무단 투기 적발 시스템

  • MIN, Hye Won (School of Game Engineering, Korea Polytechnic University) ;
  • LEE, Hyoung Gu (School of Game Engineering, Korea Polytechnic University)
  • Received : 2021.08.18
  • Accepted : 2021.11.09
  • Published : 2021.11.30

Abstract

In CCTV environments, a lot of learning image data is required to monitor illegal dumping of garbage with a typical image-based object detection using deep learning method. In this paper, we propose a system to monitor unauthorized dumping of garbage by learning the articular points of the person using only a small number of images without immediate use of the image for deep learning. In experiment, the proposed system showed 74.97% of garbage dumping detection performance with only a relatively small amount of image data in CCTV environments.

Keywords

1. 서론

쓰레기 무단 투기는 현대 사회에서 삶의 질을 떨어트리는 사회 문제 중 하나이다. 이를 예방하기 위해 무단 투기가 집중적으로 일어나는 구역에 CCTV 를 설치하지만 사람이 감시하지 않는 상황에서는 효과가 적으므로 쓰레기가 투기되는 시점에 자동으로 행동 인식을 통해 쓰레기 무단 투기를 적발하는 시스템이 필요하다. CNN(Convolutional Neural Net- work)[1,2]과 같은 Object Detection 방식으로 쓰레기 투기를 인식하기 위해서는 방대한 양의 학습용 이미지 자료가 요구된다. 본 논문에서는 이미지를 학습에 바로 사용하지 않고 이미지를 가공하여 얻은 사람의 관절 데이터로 학습시킨 딥러닝 신경망을 사용하여 쓰레기 무단 투기를 적발하는 방법을 제안한다. 이를 위해 쓰레기를 버리는 자세와 그 외의 일반적인 자세의 이미지 데이터를 수집하고, CCTV 카메라 각도의 영향을 줄일 수 있도록 여러 각도로 회전시키는 것과 같은 데이터 증강(Data Augmentation) 기법을 통해 학습용 이미지 데이터의 수를 증가시킨다. 이미지에서 사람 영역을 잘라낸 후 관절 데이터를 추출하고, 이를 딥러닝 신경망 모델의 학습용 데이터로 사용한다.

2장에서는 쓰레기 무단 투기 적발 시스템의 관련 연구를 살펴보고, 3장에서는 제안하는 쓰레기 무단투기 적발 시스템의 구성을 소개한다. 4장에서는 실험 내용을 기술하고, 마지막으로 5장에서는 본 논문의 결론을 제시한다.

2. 관련 연구

2.1 쓰레기 무단 투기 적발 시스템 선행 연구

최근 발표된 쓰레기 무단 투기 적발 시스템을 살펴보면 J. Jeong[3]은 배경 영상에서 새로운 객체를 인식하고, 이 객체가 분리되는 상황이 발생하면 쓰레기 투기로 인식하는 영상 처리 방법을 제안하였다. T. Kim[4]은 영상 속 객체의 이동 궤적을 추출하여 쓰레기 무단 투기 여부를 확률적으로 판단하는 방법을 제안하였다. 또한 YOLO-v4 알고리즘[5]을 활용하여 영상에서 실시간 객체 인식을 통해 쓰레기 무단투기 행동을 적발하는 시스템도 제안되었다[6]. 이시스템은 91%의 정확도를 보고하고 있으나 관절이 아닌 이미지로 행위를 판단하기 때문에 훈련을 위해서 많은 양의 데이터를 필요로 한다. 적은양의 데이터만으로도 효과적인 시스템을 구축하는 데 목표가 있는 본 논문의 접근 방법과는 차이가 있다. 또한 해당 시스템[6]은 CCTV 영상 내에서 쓰레기 무단 투기 단속 영역을 설정하고 한정된 영역 내에서 발생하는 쓰레기 무단 투기 행위만 인식하므로 영상 전체에서 쓰레기 투기 행위를 인식하는 본 논문의 실험 결과와 직접 비교는 어렵다.

이러한 선행 연구는 대부분 쓰레기를 투기하는 사람의 이미지나 쓰레기 이미지 자체를 학습시키는 방법을 사용하므로 실제 상황에 적용하기 위해서는 다양하고 많은 상황의 학습용 이미지 데이터가 요구된다. 본 연구에서는 이러한 제약을 극복하기 위하여 이미지에서 추출한 사람의 관절 데이터를 이용하여 쓰레기 무단 투기를 적발하는 방법을 제안한다.

2.2 관절 포인트 추출

본 제안에서는 이미지에서 사람의 관절 포인트를 추출하기 위하여 OpenPose[7]를 사용한다. 이미지 혹은 비디오 입력을 대상으로 OpenPose를 활용하면 하나의 이미지에서 신체, 손, 얼굴, 발의 키포인트를 최대 135개까지 인식하고, 추출할 수 있다.

Fig. 1은 관절 포인트 추출 과정을 나타낸다. 입력 이미지는 특징 벡터 추출기(F)를 거쳐 관절 관련 특징(features)으로 변경되며, 이를 2개로 분할하여 2 개 Branch의 입력으로 사용한다. Branch 1은 confidence map(사람의 관절이 있는 곳을 예측)을 예측하고, Branch 2는 affinity fields(관절 사이의 연결 관계)를 예측한다. 그 후 각 Branch에서 얻은 정보를 통합하며, 이때 입력(F)도 같이 통합된다. 통합된 정보는 다음 Stage에서 다시 같은 과정의 처리에 사용된다.

MTMDCW_2021_v24n11_1508_f0001.png 이미지

Fig. 1. Articular Point Extraction Process.

3. 쓰레기 무단 투기 적발 시스템

3.1 시스템 구성

Fig. 2는 시스템 전체 구성을 보여주는 것으로 ‘Data Preprocessing’ 모듈에서는 YOLO[8] 모델을 활용하여 입력 동영상의 개별 이미지(Input Image) 에서 사람 영역을 구분(Person Object Detection) 하여 잘라낸다(Crop Image). 잘라낸 이미지에서 사람 관절의 2차원 좌표 데이터를 얻는다(Articular Point Extraction). 25개의 관절 중 쓰레기 투기 판단에 영향을 주지 않는 얼굴과 발 부분의 10개 관절 좌표 데이터는 제외시킨다. 남은 15개의 관절 데이터 중비정상적인 이미지(신체 일부가 가려진 경우 등) 의경우에는 관절 데이터에서 0의 개수가 일정 개수를 넘는 경우이므로 이러한 데이터는 입력 데이터에서제외시킨다. 이렇게 얻은 관절 데이터를 정규화 (Normalized) 시킨 후 학습시킨 모델에 입력하면 모델은 관절 데이터를 기반으로 쓰레기 투기 자세인지 아닌지를 분류한다(Class Prediction). 쓰레기 투기인 경우에는 'Dump' 클래스를 출력하고, 그렇지 않으면 'None' 클래스를 출력한다.

MTMDCW_2021_v24n11_1508_f0002.png 이미지

Fig. 2. System Process: Data Preprocessing, Running modules and Training Modules.

3.1.1 데이터 증강(Data Augmentation)

대부분의 CCTV는 수평방향보다 위에서 아래를 내려다보는 각도로 설치된다. 이 경우 설치된 카메라와 촬영되는 사람의 거리가 가까울수록 이미지 왜곡이 발생한다. 본 논문의 딥러닝 모델은 관절의 2차원 좌표 값을 입력으로 사용하고 있으므로 좌표에 왜곡이 더해지면 학습된 모델이 투기 자세를 올바르게 판단할 수 없다. 따라서 CCTV 영상 이외의 정면 영상에 대해서는 CCTV 설치 환경을 반영시키기 위하여 2차원 이미지를 X축을 기준으로 3차원 회전시킨 데이터를 추가하여 학습시키는 방법을 채택했다. 정면에서 바라본 2차원 이미지를 X축을 기준으로 반시계방향으로 30도 회전시키면 상체가 길어지고 하체는 짧아지는데, 이는 일반적으로 CCTV를 통해서 위에서 아래로 내려다볼 때의 상황과 유사하다.

3.1.2 데이터 전처리(Data Preprocessing) 및 관절 데이터 추출

길에 쓰레기를 버리는 대표적인 자세와 그 외 거리에서 취하는 일반적인 자세를 구분하는 것을 본 쓰레기 무단 투기 적발 시스템은 목표로 한다. 일반자세 중 팔짱 끼는 자세, 걷는 자세, 전화 받는 자세, 서 있는 자세 등 여러 자세를 포함하여 데이터를 구성하였으며 쓰레기 투기 자세는 팔을 뻗고 무릎을 굽히는 자세를 기본으로 허리의 각도나 무릎을 굽힌 정도를 다르게 한 자세를 포함시켜 학습데이터를 구성했다. 즉, 본 논문에서 특정 하는 쓰레기 무단 투기 자세는 허리와 무릎을 굽힌 채 팔을 뻗는 자세를 기본으로 하며, 입력 이미지에서 얻은 관절의 2차원 좌표 값 (x, y)으로 쓰레기 무단 투기 자세를 판단한다. 이를 위해 학습용 이미지와 테스트용 이미지에서 관절 좌표를 추출하는 데이터 전처리 과정이 필요하다. 먼저 입력 이미지에서 사람이 있는 사각형 영역을 구분한다. 해당 영역만큼 이미지를 잘라내고(crop), 잘라낸 이미지에 OpenPose 라이브러리를 적용시켜사람의 관절 좌표(x, y)를 추출한다. 인식되는 사람마다 25개의 관절 포인트를 추출하기 때문에 총 50개의 2차원 관절 좌표 값을 얻는다. 여기서 25개의 관절 포인트 중 쓰레기 투기 판단에 영향을 주지 않는 10 개의 관절 포인트를 제외시킨다. 또한 남은 15개의 관절 포인트 중 10개 이상의 관절 포인트를 얻지 못한다면 해당 이미지는 예외적인 것(신체 일부가 가려진 이미지 등)으로 간주하여 학습 및 테스트의 입력에서 제외시킨다.

3.1.3 정규화(Normalization)

이미지에서 사람이 있는 영역(bounding box)을잘라낼 때 그 크기가 각각 다르므로 정규화(Normal- ization) 과정이 필요하다. 각 영역에서 추출한 관절의 2차원 좌표(x, y)를 bounding box의 크기에 따라 정규화(Normalization) 시킨다. 여기서 bounding box의 크기(width, height)는 식 (1), (2)로 계산하고 정규화 식은 (3), (4)와 같다. 여기서 각 최소값(minx, miny)을 구할 때, 0은 제외한다.

\(\text { width }=\max _{x}-\min _{x}\)       (1)

\(\text { height }=\max _{y}-\min _{y}\)       (2)

\(\text { normalized }_{x}=\left(x-\min _{x}\right) \div \text { width }\)       (3)

\(\text { normalized }_{y}=\left(y-\min _{y}\right) \div \text { height }\)       (4)

이미지에서 관절을 찾아 추출하지 못하고 0을 반환했을 때, 해당 관절의 x와 y 좌표가 둘 다 0인 경우, 정규화 식을 사용하지 않고 -1을 반환한다.

3.1.4 학습 모델

정규화된 학습용 데이터 셋을 Fig. 3과 같은 학습모델에 적용하여 학습시킨다. 여기서 제시한 모델은 Fig. 2 하단 부분의 ‘Normalized’ 모듈 다음의 ‘Train- ing Model’ 모듈에 사용되는 모델이다. 모델은 4개의 은닉층을 가지고 있으며, 각 층의 가중치는 He Normal Initialization[9]을 사용해 초기값을 설정한다. 모델 각 층의 뉴런들은 인접하는 다른 층의 뉴런들과 모두 연결된 완전 연결 계층(Fully connected layer) 방식이며, 활성화 함수로는 출력층에는 softmax를 사용하고 나머지 층의 활성화 함수로는 모두 ReLU 를 사용한다. 입력층을 제외한 나머지 층은 다음 층으로 값을 넘겨주기 전에 배치 정규화(Batch Norm- alization)[10] 과정을 적용하여 학습 속도를 높인다.

MTMDCW_2021_v24n11_1508_f0003.png 이미지

Fig. 3. DNN (Deep Neural Network) model.

3.2 이미지 데이터

학습을 위해 쓰레기 투기 자세 23, 882개와 그 외의 일반 자세 25, 858개의 이미지 데이터를 포함하여 총 49, 740개를 사용하였다. 쓰레기를 투기하는 자세는 여러 상황이 있을 수 있지만 본 논문에서는 허리와 무릎을 굽힌 채 한쪽 팔을 뻗어 쓰레기를 땅에 내려놓는 자세를 취하는 것으로 특정 한다. 일반 자세로는 거리의 CCTV 영상에서 잡히는 쓰레기 투기 자세 이외의 이미지(걷기 자세, 통화 자세, 팔짱을 낀 자세, 등) 데이터를 수집했다. 모든 이미지는 회색조(gray scale)이며 Fig. 4는 사용된 이미지의 예시이다.

MTMDCW_2021_v24n11_1508_f0004.png 이미지

Fig. 4. Example of Experimental Data: (a) AI Hub Data and (b) Directly Taken Data.

이미지 데이터는 AI Hub[11]에서 수집한 쓰레기 투기 영상과 필요한 자세를 취하며 360도 회전하며 직접 촬영한 영상에서 수집한 것의, 두 종류가 있으며 각 종류별 이미지 개수는 Table 1과 같다.

Table 1. Composition of Image Data.

MTMDCW_2021_v24n11_1508_t0002.png 이미지

4. 실험 및 성능평가

4.1 실험 환경

실험에 사용된 시스템의 CPU는 AMD Ryzen 7 2700X, GPU는 GeForce GTX 1080 Ti, OS는 Ubuntu 20.04이며 라이브러리로는 OpenPose, OpenCV, Tensorflow와 Keras를 사용하였다. Fig. 5는 실험 과정을 보여준다. 먼저 입력 이미지에서 사람이 있는 영역을 잘라낸다(Crop Image). 그 후 OpenPose[7] 라이브러리를 활용하여 잘라낸 이미지에서 관절 좌표 데이터를 추출하고(Articular Point Extraction), 추출한 좌표 데이터를 정규화(Normalized)시킨 후 쓰레기 투기 자세를 학습시킨 쓰레기 무단 투기 적발모델(Trained Model)에 입력한다. 학습된 모델은 입력된 관절 좌표 데이터로 쓰레기 투기 자세인지 일반자세인지 구분(Detection)하며 쓰레기 투기 자세일 경우에는 이미지에서 사람 영역을 표시한 Bounding Box의 색을 빨강색으로 출력하며, 일반 자세일 경우에는 파란색으로 출력한다. Bounding Box 왼쪽 위에 ‘person : ’이란 문구와 함께 쓰레기 투기 자세일 경우 ‘Dump’, 일반 자세일 경우 ‘None’이란 문구를 표시한다. 이때, 문구의 색은 Bounding Box의 색과 동일하다. Fig. 6은 쓰레기 무단 투기 적발 시스템에 테스트 이미지를 입력하여 얻은 결과 예시로 빨간색 박스가 적발한 경우이다.

MTMDCW_2021_v24n11_1508_f0005.png 이미지Fig. 5. Test Process.

MTMDCW_2021_v24n11_1508_f0006.png 이미지

Fig. 6. Test Result Image.

4.2 데이터 증강(Data Augmentation)

Fig. 7은 데이터 증강 방법을 표현한 것으로 AI Hub의 쓰레기 투기 영상에서 얻은 이미지 데이터로는 좌우반전, 회전(좌우 각각 15도, 30도 회전), 좌우 반전과 회전 동시 수행(좌우 반전한 이미지를 다시 좌우 각각 15도, 30도 회전)을 적용하여 이미지 데이터 수를 증가시켰다. 직접 촬영한 데이터를 얻기 위해서는 팔과 다리의 방향을 바꾼 영상을 따로 촬영했기 때문에 좌우반전과 회전 동시 수행을 제외한 나머지 데이터 증강 기법(좌우반전, 좌우 각각 15도, 30도 회전)을 각각 적용시켰다. 여기에 추가로 X축으로 30도 회전을 적용시켜서 CCTV 영상처럼 상하 비율을 조정하였다. X축 회전은 먼저 사람이 있는 영역을 구분하고, 구분된 영역을 X축을 기준으로 반시계 방향으로 30도 회전시켰다.

MTMDCW_2021_v24n11_1508_f0007.png 이미지

Fig. 7. Data Augmentation Example : (a) AI Hub Data and (b) Directly Taken Data.

4.3 학습용 데이터 세트

학습용 데이터 세트는 이미지 데이터에서 추출한 관절의 x, y 좌표를 사용한다. 여기에 사용된 이미지는 두 그룹으로서 첫번째 그룹은 원본과 좌우반전, 회전을 적용시켜 얻은 이미지 그룹이고 두번째 그룹은 원본, 좌우반전, 회전에 추가로 x축 회전을 적용시켜 얻은 이미지 그룹이다. 이러한 두 그룹으로 나누어 학습용 데이터 세트를 구성하고 이중 10%를 검증용 데이터(validation data)로 사용하였다. 쓰레기를 투기하는 자세인 Dump 클래스와 그 외 일반 자세인 None 클래스에 해당하는 학습용 데이터 개수는 Table 2와 같다. 테스트 데이터 세트는 AI Hub의 쓰레기 투기 영상 중 학습에 사용하지 않은 6개의 비디오에서 1초당 5개의 이미지를 추출해서 사용한다. 테스트에 사용된 이미지 개수는 Table 3과 같다.

Table 2. Composition of Training and Validation Data.

MTMDCW_2021_v24n11_1508_t0004.png 이미지

Table 3. Test Image Data.

MTMDCW_2021_v24n11_1508_t0005.png 이미지

4.4 성능평가

성능평가를 위해서 투기 장면에 대해 쓰레기 투기 자세의 영역 정보(클래스 번호, 좌표값)를 직접 표시해 얻었다. 사람이 'Dump' 클래스로 판단한 영역과 모델이 'Dump' 클래스로 판단한 영역의 겹친 면적이 50% 이상이면 올바르게 판단한 것으로 평가한다. 각각의 판단 결과에 대한 4가지 분류 체계로 TP (True Positive), FN(False Negative: ‘Dump’를 ‘None’ 으로 출력), FP(False Positive: ‘None’을 ‘Dump’로출력), TN(True Negative)을 사용한다. 딥러닝 모델은 먼저 이미지에서 사람이 있다고 판단되는 영역을 잘라내고, 다음 단계에서 관절 좌표 데이터를 추출하여 예측한다. 따라서 TP, FN, FP, TN의 개수는 입력 이미지에서 잘라내는 사람의 Bounding box 개수이며, 이들의 총합은 동영상 속에서 얻게 되는 모든 사람의 Bounding Box 개수이다.

각 동영상을 테스트할 때의 정확도(Accuracy)는 수식 (5)로 계산한다. Table 4는 X축으로 회전시키지 않은 데이터로 학습시킨 모델과 X축으로 회전시킨 데이터로 학습시킨 모델의 정확도를 비교하여 보여준다.

\(\operatorname{Accuracy}(\%)=\frac{T P+T N}{T P+T N+F N+F P} \times 100\)       (5)

Table 4. Accuracy Result.

MTMDCW_2021_v24n11_1508_t0006.png 이미지

Table 4에서 보듯이 7개의 동영상 중 5개의 동영 상에서 X축 회전 데이터를 추가했을 때 정확도가 향상되었다. Video 마다 성능 차이를 보이는 것은 각 Video에 촬영된 등장인물의 거리와 촬영 장소(실내외)에 기인하는 것으로 Video 4는 실내에서 촬영된 데이터로 실외에서 촬영된 그 이외 데이터에 비해 성능이 높게 측정되었다. 같은 실외 데이터이지만 Video 1이 Video 2, 3보다 성능이 낮은 이유는 Video 1은 촬영 거리가 더 멀어서 촬영된 인물의 크기가 작게 되어 발생한 것으로 분석된다. Video 5, 6, 7은 각각 Video 1, 2, 3과 동일한 상황에 대한 측면 데이터로 정면 데이터에 비해 성능이 저하됨을 확인할 수 있다. X축 회전 데이터를 포함하지 않고 학습시킨 모델의 평균 정확도는 73.73%이고, X축 회전 데이터를 포함시켜서 학습시킨 모델의 평균 정확도는 74.97%이다. 이는 CCTV 설치 환경에 따른 학습 데이터의 특징으로 수평으로 촬영된 영상에 대해서는 X축 회전을 하여 CCTV 환경을 갖추게 하는 것이 효과가 있음을 의미한다.

Table 5의 결과에서 X축 회전 데이터가 들어가는 경우 TP는 큰 차이를 보이지 않으나 FP가 줄어들어 정확도가 향상됨을 알 수 있다. 테스트 영상은 대부분 쓰레기 투기 장면이 중앙에 위치하며 영상 양쪽 끝과 아래쪽과 같이 카메라 왜곡이 큰 부분에는 일반자세를 취하는 행인이 위치한다. 이는 X축 회전 데이터를 추가했을 때 기존의 카메라 왜곡 때문에 제대로 분류하지 못하고 쓰레기 투기 자세로 분류되었던 일반 자세들(걷기 자세, 전화 받는 자세, 팔짱 낀 자세, 등)이 보다 정확하게 분류됨을 의미한다. Fig. 8은 Table 5의 FP와 TP를 각각 x축과 y축으로 설정한 ROC(Receiver Operating Characteristic) curve로 X 축 회전 데이터의 정확도가 대체로 더 높음을 확인할 수 있다.

Table 5. Experimental Result.

MTMDCW_2021_v24n11_1508_t0007.png 이미지

MTMDCW_2021_v24n11_1508_f0008.png 이미지

Fig. 8. ROC Curve.

5. 결론

딥러닝 신경망을 사용하여 쓰레기 무단 투기를 적발하고자 할 때, 이미지만으로 학습시키는 경우에는 많은 양의 학습용 이미지 데이터가 필요하다. 이 문제를 해결하기 위해 본 논문에서는 이미지에서 관절 키포인트 좌표를 얻어 쓰레기 투기 자세를 감지하는 방법을 사용했다. CCTV 이미지에서 관절 키포인트좌표로 자세를 인식하므로 비교적 적은 양의 이미지 데이터만으로도 74.97%의 쓰레기 무단 투기 감지 성능을 보여줌을 확인하였다.

허리와 무릎을 굽힌 채 팔을 뻗는 자세를 쓰레기 투기 자세로 특정하고 인식하였으며, 이를 위해 학습용 이미지 데이터에 좌우반전, 회전 효과를 적용시켰다. 특히, 쓰레기 무단 투기 적발 시스템이 CCTV 환경에서 작동한다는 점을 고려하여, 정면에서 촬영된 이미지에 대해서는 CCTV 촬영 각도를 반영하여 X축으로 회전시킨 이미지 데이터를 추가했다. 그 결과, X축으로 회전시킨 데이터를 추가하였을 때 정확도가 73.73%에서 74.97%로 향상되었다. X축 회전각의 양을 달리 했을 때 정확도 변화가 의미 있는 수준이 아니었고 향후 연구에서는 X축 회전각의 변화를 포함하여 다양한 영상 증강 방법을 적용할 예정이다.

제안된 시스템은 적은 양의 이미지 데이터로도 특정 움직임을 감지할 수 있으므로 범죄 예방이나 각종 안전사고 예방에 적용할 수 있을 것이다.

References

  1. A. Krizhevsky, I. Sutckever, and G.E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Communications of the ACM, Vol. 60, Issue 6, pp. 84-90, 2017. https://doi.org/10.1145/3065386
  2. J.H. Chae, J.H. Lim, H.S. Kim, and J.J. Lee, "Study on Real-time Gesture Recognition based on Convolutional Neural Network for Game Applications," Journal of Korea Multimedia Society, Vol. 20, No. 5, pp. 835-843, 2017. https://doi.org/10.9717/KMMS.2017.20.5.835
  3. J. Jeong, S. Kwon, Y. Kim, S. Hong, and Y. Kim, "Development of Monitoring System for Detecting Illegal Dumping Using Image Processing," Proceedings of the Korean Information Science Society, pp. 1613-1613, 2017.
  4. T. Kim, H. Kim, P. Kim, and Y. Lee, "The Design of Intelligent System for Statistically Determining Illegal Garbage Dumping through Trajectory Analysis," Proceedings of the Information Science Society, pp. 805-807, 2017.
  5. A. Bochkovskiy, C. Wang, and H.M. Liao, "Scaled-YOLOv4: Scaling Cross Stage Partial Network," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 13029-13038, 2021.
  6. C. Bae, H. Kim, J. Yeo, J. Jeong, and T. Yun, "Development of Monitoring System for Detecting Illegal Dumping Using Deep Learning," Proceedings of the Korean Society of Computer Information Conference, Vol. 28, No. 2, pp. 287-288, 2020.
  7. Z. Cao, G. Hidalgo, T. Simon, S. E. Wei, and Y. Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 43, No. 1, pp. 172- 186, 2021. https://doi.org/10.1109/TPAMI.2019.2929257
  8. J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You Only Look Once: Unified, Real- Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016.
  9. K. He, X. Zhang, S. Ren, and J. Sun, "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification," 2015 IEEE International Conference on Computer Vision, pp. 1026-1034, 2015.
  10. S. Ioffe and C. Szegedy, "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift," arXiv Preprint, arXiv:1502.03167, 2015.
  11. AI Hub, https://aihub.or.kr/ (accessed November 1, 2021).