1. 서론
우리나라의 산업분야에서는 다양한 영역의 작업 및 공정현장에서의 인공지능 기술 접목과 디지털화를 통한 체계적인 현장지식의 수집·저장·관리를 가능하게 하는 스마트공장 디지털전환 (DX: Digital Transformation)이 급속하게 진행되고 있다. 여러 유형의 스마트공장 디지털전환에 있어서 무엇보다도 시급한 기술은 초고령 사회로 급속히 진입한 현실에서 다양한 산업의 작업 및 공정현장의 정형·비정형 데이터로부터 고숙련 작업자 중심의 현장지식을 수집·저장·관리하여 지속 가능한 작업자 중심 현장작업지식으로 자산화하고, 저숙련 작업자를 위한 맞춤형 현장지식을 공유가능하게 하는 현장지식 자산화 플랫폼 기술이다. 특히, 고숙련 작업자의 작업 및 현장지식은 업무 수행과정에서 자신 스스로도 인식하지 못하는 사이에 지식을 표현하고 창출하므로 이를 체계적으로 수집·저장·관리·공유하기 위해서는 작업 수행 프로세스에 내재되어 있는 현장지식과 작업지식에 대한 지속적이고 안정적인 발견 기술과 함께 지식 자산화를 가능하게 할 수 있는 빅데이터 및 인공지능-딥러닝 기술의 도입이 필수적 요구사항이다. 결과적으로, 이러한 플랫폼 기술을 연구개발함으로써, 그림 1에서 나타낸 바와 같이, 다양한 산업 현장의 저숙련 작업자는 업무를 수행하면서 실제 업무 프로세스 상에서 나타날 수 있는 여러 가지 상황(설비세팅, 조작순서, 작업자세 등)을 레시피 기반의 지식자산화 플랫폼을 통해 전달 받을 수 있을 뿐만 아니라 비접촉 방식의 CCTV-동영상 기반의 인공지능-딥러닝 분석을 통해 지식자산화된 CCTV-동영상 기반의 고숙련 작업자의 현장 지식을 지속적으로 학습할 수 있는 영상기반 지식자산화 플랫폼을 제공할 수 있게 된다.
(그림 1) 고숙련자 작업현장지식 자산화 공유플랫폼 개념도
(Figure 1) A Conceptual View of the Expert-Knowledge Assets Management & Sharing Platform
본 논문에서는 그림 1에서 도식화한 고숙련자 작업현장지식 자산화 공유플랫폼에서 특별히 오른쪽 부분의 영상기반 작업현장지식 자산화 공유플랫폼을 설계 및 구현하기 위한 핵심 기술인 CCTV-동영상 객체능동화 플랫폼 기술에 대한 개념적 아키텍처와 이의 기능적 접근방법을 제안한다. 대표적인 비정형데이터인 CCTV-동영상의 물리적 구성요소인 비디오-프레임을 묘사할 수 있는 기본 요소인 객체(objects), 행위(motions), 물리적환경(physical environments) 특성들을 동영상-객체·행위·환경 검출 인공지능-딥러닝 모델과 프레임워크들을 적용하여 인식하고, 각 비디오-프레임을 텍스트데이터유형의 XML-능동데이터로 변환하는 접근방법을 “CCTV-동영상 객체능동화” 접근방법이라고 정의한다. 결과적으로, 본 논문에서는 특별히 CCTV-동영상 객체맥락화 기법[6]에 초점을 두고, 이 접근방법을 기반으로 하는 스마트공장 고숙련자들의 작업 및 현장지식 자산화 기술과 수집·저장·관리 플랫폼의 개념적 아키텍처와 그의 기능적 구현방법을 제안한다. 특히, 본 논문에서 제안하는 CCTV-동영상 데이터의 객체 능동화 접근방법에 적용되는 대표적인 영상분석 인공지능-딥러닝 모델인 YOLO-프레임워크의 적용방법에 대해서 자세히 기술한다.
끝으로, 본 논문의 구성은 먼저 일련의 관련기술에 대한 선행연구의 조사분석 결과를 다음의 장에서 소개하고, 이어진 두 개의 장에서는 CCTV-동영상 객체능동화 플랫폼 기술에 대한 개념적 아키텍처와 이의 기능적 접근방법을 자세히 기술한다. 끝으로, 마지막 장에서는 본 논문에서 제안한 객체능동화 플랫폼의 개념적 아키텍처를 기반으로 실현가능한 추후의 연구개발 이슈들을 소개한다.
2. 관련 연구와 배경 및 범위
이 장에서는 영상기반 작업현장지식 자산화 공유플랫폼의 기반기술로서 본 논문의 핵심 연구개발의 연구범위와 내용인 CCTV-동영상 객체능동화 기술을 구현하는데 활용되는 일련의 인공신경망(artificial neural networks) 학습모델들을 간단히 소개하고, 그 중에서 최근에 대표적인 영상객체 딥러닝 학습모델로 잘 알려진 YOLO 시리즈의 연구개발현황과 본 논문에서 제안하는 CCTV-동영상 객체맥락화 솔루션에서의 YOLO[11][12][13] 프레임워크 시리즈의 마지막 버전인 YOLOv8 활용방안을 설계한다.
본 논문의 주요 연구배경은 최근에 국내외 산업현장에서는 빠른 대내외 기술적 환경변화와 노하우 소멸에 대응하기 위한 중견·중소기업의 디지털전환에 관심이 집중되고 있음에 기인한다. 즉, 산업현장 디지털전환의 주요 접근방법의 하나임과 동시에 ICT 기술 특히 인공지능-딥러닝 기술을 기반으로 하는 전문가 노하우 자산화를 통한 산업현장의 질적성숙 수준 강화방안 및 노하우 소멸현상 대응방안의 하나로서 자산화 전환플랫폼과 전문가의 직무분석을 위한 현장맞춤형 직무역량 진단서비스 플랫폼 등이 주요 연구개발이슈로 대두되고 있다. 특히, 사회전반의 고령화와 저출산 문제와 함께 산업전반의 제조현장 기피현상에 따른 노하우 소멸이라는 이중삼중고를 겪고 있는 중견·중소기업에서는 스마트공장의 혁신적 디지털 전환을 추진하는 신사업 및 신연구개발에 역량을 집중하고 있다[4][15][18]. 본 논문의 저자들이 수행 중인 산업통상자원부 산업일자리고도화기술개발사업의 현장 지식 자산화 및 노동력 증강 기술개발과제2) 역시 이러한 시대적 요구에 따라 기획된 연구개발과제로서, 본 논문의 핵심적인 연구범위는 숙련자 작업현장지식 자산화 공유 플랫폼, 특별히 영상기반 작업현장지식 자산화 공유플랫폼의 핵심 기술인 CCTV-동영상 객체능동화 플랫폼 기술에 대한 개념적 아키텍처와 이의 기능적 접근방법을 제안하는 것이다.
본 논문의 핵심 내용으로서 영상기반 작업현장지식 자산화를 가능하게 하는 CCTV-동영상 객체능동화 기술은 기본적으로 영상-객체를 탐지하는 컴퓨터비전과 인공지능-딥러닝 모델을 필요로 한다. 최근의 대표적인 최고의 영상-객체 탐지 딥러닝 프레임워크와 모델은 2015년도에 처음으로 개발되어 발표된 YOLO(You Only Look Once)[11]라고 칭하는 영상-객체탐지 및 이미지분할 모델이다. 따라서, 본 논문에서 제안하는 CCTV-동영상 객체 능동화 플랫폼에서는 YOLO 모델을 기본적인 영상-객체 탐지 기술로 채택하여 적용하였다. 특히, YOLO는 영상-객체탐지의 빠른 속도와 정확성이 매우 높은 딥러닝 모델이며, 지금까지 여덟 번의 성능개선 버전닝작업이 진행되어 왔다. 즉, YOLOv2[11]는 2016년에 공개되었으며 배치 정규화, 앵커 박스, 차원 클러스터를 통합하여 원본 YOLOv1-모델을 개선하였으며, YOLOv3[11]는 2018년에 출시되어 더 효율적인 백본 네트워크, 복수 앵커 및 공간 피라미드 풀링을 사용하여 모델의 성능을 더욱 향상시켰다. 2020년에 발표된 YOLOv4 [11]는 모자이크 데이터 증가, 새로운 앵커-프리 탐지 헤드, 새로운 손실 함수와 같은 혁신을 도입했다.
특별히, YOLOv5[12] 버전부터는 Ultraylytics사에 의해서 상업적 라이선싱을 제공하는 엔터프라이즈 모델을 추가적으로 발표하여 성능을 더욱 향상시키고 하이퍼파라미터 최적화, 통합 실험 추적 및 고성능 추론 포맷으로 지원되는 TensorRT-Export와 같은 새로운 기능을 추가했다. YOLOv6 [13]는 2022년에 Meituan사에 의해 오픈 소스화되었으며, 이 회사의 자율 배달 로봇에서 사용되고 있고, YOLOv7 [14]는 COCO 키포인트 데이터셋에서의 자세 추정과 같은 추가적인 작업을가능하게 하는 기능을 추가했다. 마지막으로, YOLOv8은 Ultralytics사에서 출시한 YOLO의 가장 최신 버전인 첨단 상태 기술 모델로서, 이전 버전들의 성공을 기반으로 새로운 기능과 개선 사항을 도입하여 성능, 유연성 및 효율성을 향상시켰을 뿐 만 아니라 탐지, 분할, 자세 추정, 추적, 분류를 포함한 다양한 컴퓨터비전 기반 인공지능서비스 작업을 지원함으로써 사용자들이 다양한 애플리케이션도메인 전반에 걸쳐 YOLOv8의 능력을 활용하는 것이 한층 용이하게 되었다[9].
본 논문의 또 다른 핵심 내용인 컴퓨터비전 기술과 인공지능-딥러닝 기술 기반의 전문가 노하우 자산화 플랫폼을 구현하고자 하는 연구개발은 산업현장의 질적성숙 수준 강화방안 및 노하우 소멸현상을 해결할 수 있는 결정적인 대응방안으로 인식되어 있음에도 불구하고 그에 대한 구체적인 연구개발 시도와 연구성과가 전무하다고 해도 과언이 아니다. 다행히도, 최근에는 현장맞춤형 직무역량 진단서비스 플랫폼을 중심으로 하는 중견 중소기업에서의 스마트공장 디지털 전환을 추진하는 신사업 및 신연구개발에 관심이 높아지고 있으므로 그 연구개발영역의 하나로서 본 논문에서 제안하는 영상-객체능동화 개념은 새로운 연구개발영역 발굴이라는 개척적인 도전이라고 할 수 있다. 결과적으로, 본 논문에서 제안하는 CCTV-동영상 객체능동화 플랫폼 아키텍처를 설계 및 구현하는데 있어서 YOLOv5의 컴퓨터비전 및 영상-객체탐지 모델을 채택하여 적용하고자 하며, 이의 실험적 검증을 위하여 실제 산업작업현장에서의 작업자-객체탐지 및 객체능동화에 대한 기능 검증을 수행한다.
3. CCTV-동영상 객체능동화 플랫폼 아키텍처
본 논문의 궁극적 연구목표는 새로운 연구개발 도전기술의 하나로서 CCTV-동영상 상황(객체 동작 환경)능동화 개념을 정의하고, 이를 기반으로 하는 데이터-집약 스마트공장 현장작업환경 지능고도화와 고숙련자 공장작업지식 자산화를 실현할 수 있는 CCTV-동영상 상황능동화 서비스플랫폼을 설계 및 개발하는데 있다. 특별히, 그림 2는 CCTV-동영상 상황능동화 서비스플랫폼의 개념적 실현 환경을 나타낸 것이다. 이 장에서는 CCTV-동영상 객체능동화 플랫폼의 개념적 아키텍처를 제안하고, 그의 구체적 구성요소에 대한 기술적 구현방안을 고안한다. 특히, 그림 2에서 나타낸 현장작업지식 상황능동화 플랫폼 아키텍처에서 오른쪽 부분의 영상데이터 수집 획득 검증 전처리 기능모둘에 해당하는 영상-객체 능동화 개념의 명확한 정의와 이를 활용한 고숙련자 현장작업지식 자산화 플랫폼의 실현방안을 제시하고자 한다.
(그림 2) CCTV-동영상 기반 작업현장지식 자산화 플랫폼 개념도
(Figure 2) A Conceptual View of the CCTV-Video Experts’ Knowledge Asset Management Platform
3.1 영상-객체능동화 개념정의
다양한 유형의 영상(동영상)콘텐츠의 상항을 묘사할 수 있는 기본적인 구성요소인 객체(objects), 행위(motions), 물리적환경(physical environs) 요소들을 영상인식 인공지능-딥러닝 모델들을 적용하여 탐지할 수 있는데, 특별히 컴퓨터비전과 영상분석 영역에서 오래동안 연구개발의 주요 이슈였던 영상 속의 객체를 분류(classification) 탐지(detection) 분할(segmentation)하는 접근방법에서 인공지능-딥러닝 모델이 매우 우수한 성능을 보이고 있다[1][2][3][7][10]. 또한, 영상 속의 객체 뿐 만 아니라 행위 및 물리적 환경을 탐지하는 인공지능-딥러닝 모델들에 대한 연구개발 및 상품화도 빠르게 성장하고 있다[5][16][17]. 결과적으로, 본 논문의 저자들이 속한 연구그룹에서는 인공지능-딥러닝 모델을 활용하여 영상 속의 객체 행위 물리적환경을 탐지하고, 이들을 각각의 맥락-객체, 맥락-행위, 맥락-환경 데이터와 관련 속성 데이터로 묘사하는 접근방법을 “영상 능동화(activitization)”라고 정의하였고, 이러한 인공지능-딥러닝 접근방법을 적용하여 궁극적으로 생성되는 영상(동영상) 데이터를 “능동콘텐츠(active contents)” 데이터라고 명칭하였다.
본 논문에서는 이러한 영상 능동화 접근방법의 하나로서 영상의 기본요소들 중에서 객체 요소를 탐지하고 관련 속성과 함께 능동화하는 “영상-객체 능동화” 플랫폼 아키텍처를 제안한다. 또한, 제안된 영상-객체 능동화 접근방법은 CCTV-동영상 데이터에 적용한 시스템으로서, 입력된 영상을 구성하는 일련의 영상-객체들과 그들의 속성을 (잘 알려진 또는 자체 개발한) 영상-객체 탐지 딥러닝 모델들을 적용하여 탐지해 내고, 궁극적으로 탐지된 영상-객체들과 그들의 속성들을 능동-객체 데이터와 그들의 속성 데이터, 즉 “능동-객체 콘텐츠” 데이터로 변환 및 저장하는 “실시간 CCTV-영상 객체 능동화 시스템(Video-Objects Activitization System)”을 개발한다.
특히, 최근 스마트공장의 확산과 저출산-고령화로 인한 고숙련자 소멸 문제로부터 자유로운 산업구조혁신을 구현하고자 하는 국가적 공감대를 높여감에 따라 공장내의 CCTV 설치와 그의 활용가능성에 관한 관심과 요구가 급속히 확대되고 있으며, 그에 따른 CCTV-영상 빅데이터 및 산업현장 지능화를 통한 스마트공장의 환경개선 및 산업공정자산화 필요성 역시 크게 요구되는 시점이다. 따라서, 본 논문의 “영상-객체 능동화” 개념이 결과적으로 CCTV-영상 빅데이터의 급속한 확산과 그에 따른 성능적 측면의 한계에 직면할 것으로 예상되는 CCTV-영상 빅데이터의 효율성 및 성능 한계 문제에 대한 근본적인 해결 방안이자 대안적 접근방법으로 발전할 수 있다는 점에서 그 의의와 가치가 높다고 할 수 있다[8].
3.2 CCTV-영상 객체능동화 플랫폼 아키텍처
CCTV-영상 빅데이터는 스마트-공장의 급속한 확산과 더불어 전국의 산업현장에서 운영되는 CCTV-통합관제센터에서 획득 저장 관리되는 대표적인 동영상 빅데이터일 뿐만 아니라 그 활용 측면에서도 산업현장의 사고예방과 고숙련자 공장작업지식 자산화에 결정적인 역할로 주목받고 있는 동영상 빅데이터이다. 하지만, 개인정보보호법의 강력한 적용대상이고, 또한 한 달이라는 엄격한 CCTV-영상데이터 보관기간 관리에 따른 제한적 활용 그리고 컴퓨팅 환경의 성능적 제한으로 인하여 빅데이터로서의 양적-질적 가치가 매우 높음에도 불구하고 그 활용성 확장에 근본적인 한계를 가지고 있다. 따라서, 본 논문에서는 스마트공장 기반의 산업현장에서 획득될 수 있는 CCTV-영상 빅데이터의 활용성을 극대화시킬 뿐만 아니라 산업현장의 고숙련자 공장작업지식을 자산화시킬 수 있는 결정적인 해결방안의 하나로서 CCTV-영상 객체 능동화 개념을 기반으로 하는 CCTV-영상 객체능동화기반 영상자산화 플랫폼 아키텍처를 제안한다.
그림 3은 본 논문에서 제안하는 고숙련자 현장작업지식 영상-자산화 공유플랫폼 아키텍처를 도식화한 것이다. 즉, 본 논문의 영상-객체 능동화 개념을 기반으로 하는 영상-객체 능동화 플랫폼에서는 스마트공장 내의 CCTV-동영상으로부터 획득되는 동영상-프레임별 영상-객체를 영상-객체 탐지 딥러닝 모델을 적용하여 탐지하고, 이를 능동화시킨 능동-객체 데이터와 그의 속성 데이터로 변환시킴으로써 각 영상-프레임을 능동-객체들과 그들의 속성을 통해 묘사하고 이들 간의 관계분석을 통한 현장작업지식의 자산화를 가능하게 할 수 있는 창의적인 접근 방법이다. 결과적으로, 본 논문에서 제안한 영상-객체 능동화 플랫폼 아키텍처를 구성하는 주요 구성요소들 간의 상호동작에 대한 기능적 역할을 다음과 같이 정의할 수 있다.
(그림 3) 고숙련자 현장작업지식 자산화를 위한 딥러닝 기반 CCTV-영상 객체능동화 플랫폼 아키텍처
(Figure 3) A Concrete Architecture of the Deep-Learning-driven CCTV-Video Object-Activitization Platform
⦁ (동작-1) 영상-객체 능동화 시스템의 대쉬보드를 통해 연결시킨 CCTV-장치와 CCTV-영상객체인식 딥러닝 모델과 공개엔진을 선택하고, 해당 장치로부터 실시간 CCTV-영상 프레임을 입력받아 선택된 YOLO 계열(YOLO5)의 CCTV-영상객체인식 딥러닝 모델에 적용시키는 동작
⦁ (동작-2) 적용된 CCTV-영상-객체 탐지딥러닝 모델로 부터 각 영상-프레임별로 인식된 일련의 영상객체들과 그들의 속성, 즉 영상객체-ID, 객체클래스유형, 객체위치인 2쌍의 점(X1, Y1)/(X2, Y2) 좌표, 객체크기 등으로 구성되는 프레임별 능동-객체 콘텐츠를 생성하기 위한 영상객체정보를 획득하는 동작
⦁ (동작-3) 각 영상-프레임별로 획득된 영상객체정보를 입력받아 각 영상-프레임에 대한 ID를 부여함과 동시에 소속된 능동텍스트객체들과 관련된 자체 속성 데이터(객체-ID, 객체유형, 객체위치 등)와 그 속성 데이터로부터 유도되는 속성데이터들(영상객체크기, 영상객체의 예상실물크기, 객체클래스유형별 출현횟수 등) 이용하여 능동-객체 콘텐츠 프레임조직 스키마에 따른 각 영상-프레임별 능동-객체 콘텐츠를 조직하고 저장하는 동작
⦁ (동작-4) 본 논문의 영상-객체 능동화 시스템에 의해서 조직되고 저장된 각 영상-프레임별 능동-객체 콘텐츠들을 자체 빅데이터 저장소 또는 클라우드 빅데이터 저장소에 저장될 수 있도록 전송시키는 동작
3.3 CCTV-영상 객체능동화 시스템
앞 절에서 설계한 CCTV-영상 객체능동화 플랫폼 아키텍처를 기반으로 CCTV-영상객체 능동화 개념을 실현할 수 있음을 검증하기 위하여 개념증명(POC: Proof of Concept) 수준의 CCTV-영상 객체능동화 시스템을 성공적으로 개발완료하였다. 특히, 영상-객체 탐지딥러닝 모델과 본 논문의 능동화 시스템이 완전히 분리된 구조의 시스템 아키텍처로 구현함으로써 다양하고 성능이 우수한 CCTV-영상객체 탐지딥러닝 모델들이 수시로 또한 단기간 안에 자주 공표되는 최근의 기술적 발전추세에 따른 최첨단의 딥러닝 모델과 공개엔진들을 즉시적이고 자유롭고 유연하게 적용할 수 있도록 하였다. 최초의 시스템 개발버전으로서, 실시간 CCTV-영상 객체능동화 시스템은 대표적인 영상객체탐지딥러닝 모델 공개엔진으로 최고의 성능과 함께 최근에 공개발표된 YOLOv8 영상객체탐지딥러닝 모델을 채택하였으며, 이 시스템에서는 공개엔진에서 제공하는 80여개의 객체클래스들을 탐지하고, 이들에 해당하는 능동-객체 데이터 콘텐츠를 우선적으로 능동화시키는 기능을 제공하도록 구현하였다.
또한, 실시간 CCTV-영상 객체능동화 시스템에서는 새로운 영상객체클래스를 탐지해 낼 수 있는 딥러닝 모델을 개발하거나 이미 인식할 수 있는 각 객체클래스의 상세 속성을 특징지울 수 있도록 추가적인 딥러닝 모델을 개발하여 용이하게 적용할 수 있을 뿐만 아니라 그 능동화 결과를 기존의 해당 능동객체 콘텐츠에 추가시킴으로써 용이하게 갱신할 수 있도록 하였다. 실시간으로 입력되는 CCTV-영상 원시데이터를 저장하는 CCTV-장치가 위치한 서버에 본 논문의 능동화 시스템을 설치 및 적용한 후 결과적으로 해당 CCTV-영상의 능동화된 능동콘텐츠 데이터를 자체 빅데이터 저장소 또는 클라우드 빅데이터 저장소에 전송함으로써 추가적인 컴퓨팅 자원의 구입 없이 그리고 기존의 설치된 컴퓨팅 자원인 분산형태의 소규모 컴퓨팅 자원으로 초대형의 능동객체 빅데이터 효율적이고 효과적으로 구축할 수 있도록 하였다. 결과적으로, CCTV-장치로부터 실시간으로 입력되는 CCTV-영상 프레임들을 별도로 저장하지 않고 직접적으로 즉시 능동화시킴과 동시에 해당 능동-객체 콘텐츠를 생성하고 저장시킬 수 있으므로 컴퓨팅 자원이나 저장공간이 미흡한 환경에서도 최소한의 CCTV-영상객체 정보를 획득할 수 있을 뿐만 아니라 그에 따른 응용서비스 역시 제공할 수 있음을 검증하였다.
4. CCTV-영상 객체능동화 실험적 검증
본 논문의 핵심적인 연구목표와 내용은 CCTV-영상 객체능동화 플랫폼 아키텍처와 이를 기반으로 하는 시스템을 개발함으로써 영상-객체 능동화 개념을 이론적 배경으로 하는 스마트공장에서의 CCTV-영상 기반 현장작업지식 자산화를 실현할 수 있음을 증명하는데 있고, 이전의 장에서는 제안된 아키텍처와 시스템에 대한 구체적인 설계 및 구현 방안을 기술하였다. 이 장에서는 제안된 영상-객체 능동화 개념에 대한 개념증명 시스템버전으로 개발된 CCTV-영상 객체능동화 시스템을 적용한 실험적 검증결과를 제시히고자 한다. 특히, 실험적 검증의 시작인 스마트공장에서의 현장작업상황에 대한 CCTV-동영상 데이터 확보방법은 해당 연구개발사업의 초기단계에서 실험대상의 스마트공장이 특정되어 있지 않으므로 유튜브 검색을 통해 확보하였다[19].
그림 4에서는 개발된 능동화 시스템을 적용한 어느 한 스마트공장의 CCTV-동영상에 대한 실험적 검증결과로서 세 개의 시스템-스크린을 보여주고 있다. 첫 번째 시스템-스크린은 해당 스마트공장에서의 실시간 현장작업상황에 대한 CCTV-동영상으로부터 선택된 하나의 프레임을 나타낸 것이고, 두 번째 시스템-스크린은 영상-객체 탐지딥러닝 모델인 YOLOv8n 딥러닝모델의 엔진을 활용하여 해당 영상-프레임의 영상-객체 탐지결과를 보여주고 있다. 이 프레임에는 현장작업에 참여중인 종업원들 중에서 총 12명의 종업원이 딥러닝 모델에 의해서 탐지되었음을 보여주고 있다. 세 번째 시스템-스크린은 능동화 시스템에 의해서 입력 CCTV-동영상에 대한 능동화를 수행한 결과인 JSON-포맷의 능동-객체 데이터 세트를 나타낸것이고, 하이라이트한 부분은 하나의 특정 프레임(FrameID=Frame_3403)에서 탐지된 영상-객체들에 해당하는 능동-객체들과 그의 속성들을 나타낸 것이다.
(그림 4) 고숙련자 작업현장지식 자산화를 위한 CCTV-영상 객체 탐지 및 객체능동화 시스템의 실험적 검증결과
(Figure 4) A Serise of Captured Screens on the Implemented CCTV-Video Object Activitization System
결과적으로, 본 논문에서 제안한 CCTV-영상 객체능동화 개념과 그의 실현 아키텍처 및 시스템의 구현가능성에 대한 개념증명과 실험적 검증을 성공적으로 수행하였다. 끝으로, 본 논문에서 검증된 CCTV-영상 객체능동화 개념에 이어서 다음에 수행할 연구내용은 능동-객체 데이터 세트의 분석을 통한 고숙련자 현장작업지식을 탐지하고, 그 탐지결과를 바탕으로 한 자산화 플랫폼을 완성하는 것이다.
5. 결론
본 논문에서는 스마트공장의 대표적인 비정형데이터인 CCTV-동영상의 물리적 구성요소인 비디오-프레임을 묘사할 수 있는 기본 요소인 객체(Objects), 행위(Actions), 물리적환경(Physical Environment) 특성들을 탐지하여 능동화 데이터 콘텐츠 및 빅데이터를 구축할 수 있는 새로운 차원의 CCTV-영상 능동화 개념에 대한 실현가능성을 검증하였다. 즉 다시 말해서, CCTV-영상 프레임상의 영상-객체들을 YOLOv8n 인공지능-딥러닝 모델들을 적용하여 탐지하여 JSON-포맷의 능동-객체 데이터로 수집·저장·관리할 수 있는 소위 CCTV-영상 객체능동화(Object Activitization) 개념을 실현할 수 있는 개념적 아키텍처와 그의 구현을 위한 개념증명 시스템을 개발하였고, 이에 대한 실험적 검증을 수행하였다. 결과적으로, 본 논문에서 제안한 접근방법의 궁극적 목표는 다양한 산업의 작업 및 공정현장에서 수집되는 정형·비정형 데이터로부터 고숙련 작업자 중심의 현장작업지식을 체계적으로 수집·저장·관리하는 고숙련작업자 중심 현장작업지식 자산화를 위한 스마트공장 현장지식 공유 플랫폼을 구현할 수 있는 가능성을 보여주었다는 점에서 의미가 크다고 판단된다.
끝으로, 본 논문에서 제안한 CCTV-영상 객체능동화 플랫폼 아키텍처와 시스템을 기반으로 하는 향후의 연구 주제와 내용으로서 스마트공장의 CCTV-영상에 대한 능동-객체 데이터 세트로부터 고숙련자의 현장작업지식을 탐지하고, 그 결과를 자산화할 수 있는 고숙련자 현장작업지식 자산화 플랫폼 개발이라는 궁극적 연구개발 목표를 실현하기 위한 구체적 연구를 추진할 예정이다.
References
- H. A. Abosaq et al., "Unusual Driver Behavior Detection in Videos Using Deep Learning Models," Sensors, Vol. 23, No. 1, pp. 311-330, 2023. https://doi.org/10.3390/s23010311
- T. Ahmad, Y. Ma, M. Yahya, B. Ahmad, S. Nazir, and A. ul Haq, "Object Detection through Modified YOLO Neural Network," Scientific Programming, Vol. 2020, Hindawi Limited, pp. 1-10, 2020. https://doi.org/10.1155/2020/8403262
- Diwan, T., Anirudh, G. & Tembhurne, J.V. Object detection using YOLO: challenges, architectural successors, datasets and applications. Multimed Tools Appl, Vol. 82, pp. 9243-9275, 2023. https://doi.org/10.1007/s11042-022-13644-y
- S. Jung, D. Kim, and N. Shin, "Success Factors of the Adoption of Smart Factory Transformation: An Examination of Korean Manufacturing SMEs," IEEE Access, vol. 11, pp. 2239-2249, 2023. https://doi.org/10.1109/ACCESS.2022.3233811
- C. Feichtenhofer, H. Fan, J. Malik, and K. He, "SlowFast Networks for Video Recognition," Proceedings of the IEEE/CVF international conference on computer vision, pp. 6202-6211, 2019. https://doi.org/10.48550/arXiv.1812.03982
- Eub-Bee Cho, et al., "YOLO-based CCTV-Video Contextualization System," In the Proceedings of International Conference on HPC Asia 2024, Jan 25-27, 2024.
- U. Gawande, K. Hajari, and Y. Golhar, "Pedestrian Detection and Tracking in Video Surveillance System: Issues, Comprehensive Review, and Challenges," Recent Trends in Computational Intelligence, 2020. https://doi.org/10.5772/intechopen.90810
- W. Inoubli, S. Aridhi, H. Mezni, M. Maddouri, and E. Mephu Nguifo, "An experimental survey on big data frameworks," Future Generation Computer Systems, vol. 86. Elsevier BV, pp. 546-564, 2018. https://doi.org/10.1016/j.future.2018.04.032
- M. Hussain, "YOLO-v1 to YOLO-v8, the Rise of YOLO and Its Complementary Nature toward Digital Manufacturing and Industrial Defect Detection," Machines, vol. 11, no. 7, 2023. https://doi.org/10.3390/machines11070677
- W. Liu et al., "SSD: Single Shot MultiBox Detector," Computer Vision - ECCV 2016. Springer International Publishing, pp. 21-37, 2016. https://doi.org/10.1007/978-3-319-46448-0_2
- Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE conference on computer vision and pattern recognition, pp779-788, 2016. https://doi.org/10.1109/cvpr.2016.91
- J. Redmon and A. Farhadi, "YOLO9000: Better, Faster, Stronger," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017. https://doi.org/10.1109/cvpr.2017.690
- J. Terven, D.-M. Cordova-Esparza, and J.-A. Romero-Gonzalez, "A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS," Machine Learning and Knowledge Extraction, vol. 5, no. 4. pp. 1680-1716, 2023. https://doi.org/10.3390/make5040083
- C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, "YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors," 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2023 https://doi.org/10.1109/cvpr52729.2023.00721
- M. Lederer, S. Betz, and W. Schmidt, "Digital Transformation, Smart Factories, and Virtual Design," Proceedings of the 10th International Conference on Subject-Oriented Business Process Management, pp. 1-10, 2022. https://doi.org/10.1145/3178248.3178256
- L. Zhang, "Applying Deep Learning-Based Human Motion Recognition System in Sports Competition," Frontiers in Neurorobotics, vol. 16, 2018. https://doi.org/10.3389/fnbot.2022.860981
- P. Zhou, Q. Ding, H. Luo, and X. Hou, "Violent Interaction Detection in Video Based on Deep Learning," Journal of Physics: Conference Series, vol. 844, 2017. https://doi.org/10.1088/ 1742-6596/844/1/012044
- P. A. Okeme, A. D. Skakun, and A. R. Muzalevskii, "Transformation of Factory to Smart Factory," IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (ElConRus). IEEE, pp. 1499-1503, 2021
- 편의점 운영의 모든 것, "태국 치킨 공장 작업 현장," August 29, 2020. [Video], Youtube. https://youtu.be/O87QCqhjIU8?si=AGQepx6Q7bpqCGga