DOI QR코드

DOI QR Code

Implementation of a Mask R-CNN Based Object Detection System with Weighted Techniques

가중치 기법을 적용한 Mask R-CNN 기반 객체 검출 시스템 구현

  • 박병준 (서일대학교 소프트웨어공학과 ) ;
  • 김현식 (서일대학교 소프트웨어공학과)
  • Received : 2025.09.04
  • Accepted : 2025.09.15
  • Published : 2025.09.30

Abstract

The fields of computer vision and image processing are rapidly evolving, fueled by improvements in hardware performance and advancements in deep learning algorithms. Object tracking, in particular, is gaining traction, playing a key role in diverse applications such as video surveillance, autonomous driving, and computer vision. Existing object tracking techniques are primarily based on background subtraction or frame differencing, but they suffer from significant degradation in tracking accuracy in complex environments, such as lighting changes, subtle background movements, and the reappearance of stationary objects. To address these issues, this paper applies the Mask R-CNN algorithm to a weighting technique that enables precise object tracking and recognition even in constantly changing backgrounds. This approach demonstrates its potential to enhance the reliability of image processing systems and improve object tracking performance. Furthermore, we propose an experimental verification method that effectively distinguishes between object and background changes in a variety of environments.

Keywords

Ⅰ. 서론

움직이는 영상에서 객체의 움직임을 탐지하고 추적하는 것은 영상처리 분야에서 핵심적인 연구 주제로, 감시 시스템, 자율주행, 영상 검색, 증강현실 등 다양한 분야에서 중요하게 활용된다. 기존 객체 추적 알고리즘은 연속 프레임 간 특징 비교를 통해 움직임을 판별하지만, 조명 변화, 배경 동적 변화, 객체 형태 변형, 카메라 이동 등 다양한 요인으로 인해 단순한 특징 비교만으로는 안정적 추적이 어렵다. 특히 객체와 배경을 명확히 분리하지 못할 경우, 추적 오류가 누적되어 전체 시스템 성능 저하로 이어진다[1].

이를 해결하기 위해 본 연구에서는 연속 프레임 정보를 비교하여 변위가 발생하는 객체를 인식하고, 배경 변화를 동적으로 업데이트하는 방식을 적용하였다. 픽셀 단위 변화 시점을 활용하여 장면 전환을 탐지하고, 초기 프레임과 이후 몇 프레임을 비교하여 임계값 이상 변화가 발생한 영역을 객체로 판별하며, 이를 연속 비교를 통해 추적하여 검출한다[2].

특히 객체 추적(Object Tracking)은 영상 내에서 특정 객체의 위치와 움직임을 연속적으로 파악하는 기술로서, 안전 관리, 교통 모니터링, 스마트 시티 구축과 같은 실질적 응용에서 매우 중요한 역할을 담당한다.

이와 관련하여 기존 연구들은 배경 차분(Background Subtraction)이나 프레임 차분(Frame Differencing)과 같은 전통적 영상처리 기법에 의존해 왔으나, 이들은 환경 변화에 취약하여 잘못된 객체 검출이나 노이즈 혼입을 빈번히 유발하는 문제점을 가지고 있다. 이러한 문제를 해결하기 위해 가중치 기법을 적용한 Mask R-CNN 기법을 적용하였다. Mask R-CNN은 Faster R-CNN을 확장하여 객체 경계뿐 아니라 픽셀 단위 마스크를 동시에 산출할 수 있어, 배경과 객체를 정밀하게 구분하고 조명 변화나 복잡한 장면에서도 안정적인 검출과 추적이 가능하다. 객체별 마스크 정보를 활용함으로써 단순한 움직임 추적을 넘어 행동 인식이나 이상 상황 탐지까지 확장할 수 있다. 따라서 본 연구는 기존 기법의 제약을 보완하고, 영상 감시 시스템의 정확성과 신뢰도를 향상시키며, 실시간 응용 환경에서의 활용 가능성을 실험적으로 검증하는 것을 목표로 한다[3].

본 논문은 제1장에서 연구의 배경과 목적을 기술하고, 제2장에서 관련 연구 동향을 체계적으로 고찰한다. 제3장에서는 Mask R-CNN 기반 객체 검출 및 추적 시스템의 설계와 구현 과정을 설명하며, 제4장에서는 다양한 환경 조건에서 수행된 실험 환경과 결과를 분석한다. 마지막으로 제5장에서는 연구의 결론을 제시하고, 객체 추적 연구의 확장 가능성과 실제 응용 분야에서의 적용 방안을 논의한다. [그림 1]은 실험에서 사용된 영상이다.

DGTSA8_2025_v21n3_1_2_f0001.png 이미지

<그림 1> Images used for object tracking

Ⅱ. 관련연구

객체 인식 연구는 전통적으로 배경 차분이나 프레임 차분과 같은 기법에 의존하였으나, 조명 변화나 동적 배경에서 성능 저하가 빈번히 발생하였다. [그림 1]은 동영상에서 객체(사람)의 움직임을 찾은 영상이다.

이러한 전통적인 영상 차감법은 시각검사 분야에서 널리 사용되는 기법으로, 기준 영상(Reference Image)과 입력 영상(Input Image)과의 차이를 계산하여 변화를 추출하는 방식이다. 이전 프레임을 기준(Reference Frame)으로 설정하고, 이후에 입력되는 프레임을 새로운 입력 영상으로 사용하여 두 프레임 간의 차이를 계산하며 계산 방식은 <식 1, 2>와 같다[4].

D(x, y, t) = |I(x, y, t) - I(x, y, t - 1)|       (1)

<식 1>에서 I(x,y,t)는 시각 t에서 영상의 좌표 (x,y)에 해당하는 화소값을 나타내며, D(x,y,t)는 현재 프레임과 이전 프레임 간의 차이 영상(Difference Image)을 의미한다. 일정 임계값 T를 설정한 후, 이를 기준으로 이진 마스크를 생성하여 객체의 변화를 판별할 수 있게 된다.

\(\begin{align}M(x, y, t)\left\{\begin{array}{l}1 \text { if } D(x, y, t)>T \\ 0 \text { otherwise }\end{array}\right.\end{align}\)       (2)

<식 2>에서 M(x,y,t)는 객체 영역을 나타내는 마스크(Mask) 영상으로, 화소 차이가 임계값 T를 초과하면 해당 위치를 움직이는 객체로 간주한다. 이 방식은 영상에서 특정 영역(객체)을 추적하기 위해, 이미지 내에서 특징(Feature)을 추출하고 상관관계(Correlation)를 계산하여 가장 유사한 위치를 찾아가는 방식이다. 즉, 이전에 찾은 객체와 가장 비슷한 영역을 계속 추적해 나가는 방식이다. 빠르고 가벼운 장점이 있지만, 복잡한 상황에서는 객체 추적의 정확도가 떨어져 다중 객체 추적에는 적합하지 않은 기법이라 할 수 있다.

Mask R-CNN은 Faster R-CNN을 확장한 모델로서, 후보 영역을 제안하여, 객체에 대한 공간 정규화를 수행한다. 이를 기반으로 객체의 클래스와 경계 상자를 예측하는 헤드와 픽셀 단위 마스크를 생성하는 분기를 병렬적으로 학습한다. 객체 마스크 경계선 검출의 품질을 향상시켰으며, 동시에 여러 객체를 검출하는 멀티태스크 학습 구조는 검출과 분할의 상호 보완성을 극대화 하여 배경 차분법의 움직임 계산에 비해 신뢰도와 정확성을 높였다[5].

이후 Mask R-CNN은 다중 스케일 객체 검출 성능을 개선하여 검출 임계치를 점진적으로 높이는 전략을 통해 더욱 정밀한 검출과 분할을 가능하게 하였다. Hybrid Task Cascade는 검출과 분할의 상호 조건화를 통해 성능 향상을 이끌었고, 세밀한 경계 표현을 가능하게 하였다.

그러나 Mask R-CNN 계열은 높은 정확도를 제공하는 대신 두 가지 단계를 거친다. 첫 번째 단계는 (Stage 1: Region Proposal) 입력 이미지에서 어디에 객체가 있는지 후보 영역(Region Proposal)을 찾는 과정과 두 번째 단계는 (Stage 2: RoI 기반 분류 + 회귀 + 마스크 예측) 추출된 RoI를 기반으로 실제 객체 인식과 정밀한 예측을 하는 두 개의 구조로 동작하므로 처리 속도와 메모리 측면에서 많은 제약이 있다. 이를 극복하기 위해 YOLACT와 YOLACT++와 같은 실시간 인스턴스 분할 모델이 제안되었으며, 이들은 프로토타입 마스크와 계수를 조합하는 방식으로 원스테이지 학습을 수행하여 FPS를 크게 개선하고 있다. 하지만 하나의 스테이지 계열은 속도에서 강점을 가지지만, Mask R-CNN 계열보다 정확도 측면에서 낮은 경향을 보이고 있다[6].

다만 Mask R-CNN은 과도한 연산량 문제로 고성능 하드웨어가 필요하며 이에 따라 실시간 응용에서 한계를 보이고 있다. 즉 복잡한 상황에서는 경계 추정이 연속된 프레임에서 제대로 이루어지지 않아 불안정성이 발생하고, 객체 변화에 따른 일반화 성능이 저하되는 문제가 보고되고 있다. 이러한 한계를 극복하기 위해 후보 영역 탐지 과정의 최적화, 지능형 최적화 기법, 자기 지도 학습 등의 연구가 활발히 진행되고 있다. <그림 2>는 원본 영상에서 객체를 검출한 결과를 보여준다.

DGTSA8_2025_v21n3_1_3_f0001.png 이미지

<그림 2> (a)original image (b) Object detection image

Ⅲ. 설계 및 구현

본 장에서는 제안하는 Mask R-CNN 기반 가중치 적용 객체 추적 시스템의 세부 구성 요소를 기술한다. 제안된 시스템의 전처리 과정은 ROI 영역 검출(ROI Area Detection), 객체 선별(Object Selection), 그리고 객체 추적(Object Tracking)의 세 단계로 구성된다. 각 모듈은 상호 유기적으로 연동되며 영상 입력으로부터 최종적인 실시간 객체 추적 결과는 <그림 3>과 같다[7].

DGTSA8_2025_v21n3_1_4_f0001.png 이미지

<그림 3> System Process

Mask R-CNN은 객체 검출(Object Detection)과 인스턴스 분할(Instance Segmentation)을 동시에 수행할 수 있는 강력한 알고리즘이다. 그러나 해당 기법은 두개의 스테이지 구조를 기반으로 하기 때문에 속도 측면에서 제약이 존재한다. 예를 들어, Faster R-CNN은 비교적 정확한 객체 검출 성능을 보이지만 처리 속도가 느리고, Mask R-CNN은 마스크 정보를 포함한 가장 정밀한 결과를 제공하는 반면 연산량이 매우 많아 실시간 객체 추적에는 한계가 있다. 이러한 문제를 해결하기 위하여, 본 연구에서는 연산량이 큰 객체 후보 영역 탐색 과정을 가중치 기반 정보 활용 방식으로 대체함으로써 불필요한 연산을 줄이고 실시간 추적 성능을 향상시키고자 하였다[8].

가중치를 이용한 방식은 입력된 프레임과 다음 프레임 간의 변화량에 따라 가중치를 누적시킨 뒤, 이를 평균값으로 계산하여 배경 영상을 생성한다. 이후 새로운 프레임이 입력되면 해당 프레임의 값을 반영하여 움직임이 있는 영역의 가중치를 다시 계산하고, 이를 누적해 지속적으로 업데이트 한다.

가중치는 <식 3>에서 보는바와 같이 새로운 배경 화소 값에 얼마나 반영할지를 결정하는 상수로, ⍺ 값이 1에 가까울수록 최신 데이터의 반영 비율이 높아져 업데이트 비중이 높아진다. W는 누적 가중치를 나타내며, 객체가 검출되지 않거나 영상에서 사라질 경우 시간에 따라 가중치가 감소한다[9].

O(x, y) = I1 Frame(x, y) - I2 Frame(x, y)

W = (1 - ⍺) ∙ IMove Frame

OMove(x, y) = I1 Move Frame + I2 Move Frame + ..W       (3)

두 번째 단계는 찾아낸 가중치 영역에서 각 객체에 ID를 부여하고 객체의 충돌 및 분리과정에서 객체를 찾는 객체 선별(Object selection) 과정이다.

사람의 행동이나 객체의 움직임을 감지할 때, 두 사람이 서로 교차하거나 군중이 형성될 경우 객체 구분이 어려워진다. 두 명 이상의 움직이는 사람이 서로 교차하는 경우, 교차하는 순간에는 하나의 객체로 인식되었다가 분리되는 순간에는 각각 다른 ID를 가진 객체로 추적선이 바뀌는 현상이 발생할 수 있다. 이러한 문제를 해결하기 위해 각 객체의 특징을 추출하여 객체 간의 충돌 및 분리 상황을 연속적으로 추적한다.

각 객체는 블록 단위로 인식되며, 블록 구분은 절댓값 차이를 기준으로 ID를 부여한다. <식 4>에서 블록 충돌시점에 저장된 가중치 값은, 객체가 분리될 때 충돌 직전 시점의 블록을 식별하는 데 사용된다[10].

\(\begin{align}\operatorname{distance}_{\text {correl }}\left(H_{1}, H_{2}\right)=\frac{\sum_{i} H_{1}(i) \cdot H_{2}(i)}{\sqrt{\sum_{i} H_{1}(i) \sum_{i} H_{2}(i)}}\end{align}\)       (4)

세 번째 단계인 객체 추적(Object Tracking) 단계에서는 프레임 t와 t+1에서 검출된 객체의 마스크와 경계를 매칭한다. 두 프레임 간 객체의 연속성을 보장하기 위해 마스크 유사도 Iij를 기반으로 매칭 점수를 계산한다.

\(\begin{align}I_{i j}=\alpha \cdot I_{o} U\left(F_{i}^{t}, F_{i}^{t+1}\right)+(1-\alpha) \cdot \frac{\left|O_{i}^{t} \cap O_{j}^{+1}\right|}{\left|O_{i}^{t} \cup O_{j}^{+1}\right|}\end{align}\)       (5)

<식 5>에서 나타내고 있는 기호는 다음과 같으며,

Fti : 시간단위로 흐르는 프레임에 대한 객체 i의 영역

Oti : 시간단위로 흐르는 프레임에 대한 객체 i의 마스크

α : 가중치 파라미터

최종적으로 Iij가 임계값 τ 이상일 경우 동일 객체로 판단하고 추적하는 과정은 <그림 4>와 같다.

DGTSA8_2025_v21n3_1_5_f0001.png 이미지

<그림 4> Object tracking process

객체 간 유사도는 두 바운딩 박스의 교집합 영역과 합집합 영역의 비율로 계산한다. 즉, 프레임 t에서의 객체 i와 프레임 t+1에서의 객체 j간 유사도 Iij는 <식 6>과 같다[11].

\(\begin{align}I_{ij} = \frac{\left|O_{i}^{t} \cap O_{j}^{+1}\right|}{\left|O_{i}^{t} \cup O_{j}^{+1}\right|}\end{align}\)       (6)

또한, 동일 객체 여부는 계산된 유사도가 사전에 정의된 임계값 τ 이상일 경우 동일 객체로 판별한다. 이 조건은 식 (7)과 같이 정의된다[12].

Object(i) = Object(j), if Iij ≥ τ       (7)

τ의 범위는 실험적으로 설정되며, 작은 값을 선택하면 동일 객체로 인식되는 경우가 많아지지만 오탐(False Positive)이 증가할 수 있고, 큰 값을 선택하면 정밀도는 향상되나 추적 실패가 늘어날 수 있다.

이러한 객체 추적 과정은 연속된 프레임 사이의 동일 객체를 정확히 구분하는 것이 핵심인데, 프레임 t의 객체와 프레임 t+1의 객체간의 유사도는 앞에서 언급한 <식 6>과 같이 두 개의 객체간의 교집합 영역을 합집합 영역으로 나누어 계산된다. 이어서 동일 객체 여부는 유사도 가 임계값 τ 이상일 경우 동일 객체로 판별한다. 예측한 영역에 대하여 계산한 후, 임계값 τ > 0.5 이상인 집합만을 선택하여 <그림 5>와 같이 분할 마스크(Segmentation Mask)를 적용한다[13].

DGTSA8_2025_v21n3_1_5_f0002.png 이미지

<그림 5> Object tracking image

본 연구에서는 객체를 탐지하기 위하여 Mask R-CNN 모델을 채택하여 수집된 영상에서 객체를 탐지하였다. 모델은 대규모 개체 감지, 분할 및 캡션 데이터 세트인 MS COCO(Common Objection Context)를 이용하였다[14]. 학습용 데이터는 10,000장, 검증용 데이터는 2,000장으로 구성하였다. 모델 학습에는 Mask R-CNN 구조를 기반으로 하였으며, 학습률(Learning Rate)은 0.005로 설정하였다. 최적화 알고리즘은 SGD(Stochastic Gradient Descent)를 사용하고, 모멘텀(momentum) 값은 0.9이며 학습은 총 36 epoch으로 진행하였다.

Ⅳ. 실험 및 결과

본 논문에서 제안한 기법을 검증하기 위해 실험은 Intel Core i7 CPU, 32GB RAM, NVIDIA RTX 1660 Super GPU를 갖춘 하드웨어 환경에서 수행하였으며 객체 추적 성능을 평가하기 위해 세 가지 알고리즘을 비교 분석 하였다. 사용된 알고리즘은 전통적으로 많이 사용되는 영상차감법 + Kalman Filter, 객체 인식 및 분할에서 우수한 성능을 보이는 Mask R-CNN, 그리고 본 논문에서 제안하는 가중치 적용 방식 + Mask R-CNN 알고리즘이다.

본 연구에서는 제안한 기법의 객체 추적 성능을 검증하기 위해 학습은 COCO dataset을 이용하였으며, 해당 데이터셋은 다양한 객체와 복잡한 배경이 포함되어 있어 실제 환경과 유사한 조건에서 알고리즘의 성능을 평가하기에 적합하다[15]. 성능 평가는 다중 객체 추적 분야에서 널리 사용되는 MOTA, IDF1, ID switches 지표를 통해 이루어졌다. 이러한 지표는 추적 정확도, 객체 정체성 유지 능력, 객체 간 식별 오류를 측정할 수 있다. 즉 MOTA (Multiple Object Tracking Accuracy)는 추적 과정에서 발생하는 오탐(False Positive, FP), 미탐(False Negative, FN), ID Switch를 모두 고려하여, 전체적으로 얼마나 정확하게 추적했는지를 평가하는 지표이며 IDF1 (ID F1 Score)은 추적된 ID가 실제 객체의 ID와 얼마나 일관성 있게 매칭 되었는지를 나타내는 지표이다. 두 지표를 실험에 적용하는 것은 단순히 객체를 잘 검출 했는가 뿐만 아니라 동일 객체를 일관되게 추적했는지를 함께 평가하는 것이다.

<표 1>은 초당 프레임 처리에 대한 실험 결과로 Mask R-CNN 기법은 연산량 증가로 인해 Kalman Filter 기법에 비해 초당 프레임 처리 속도가 크게 저하되는 한계를 보였다. 반면, 본 논문에서 제안한 가중치 적용 Mask R-CNN 기반 기법은 불필요한 연산을 최소화하여 연산 효율을 개선함으로써 약 25 FPS의 처리 속도를 유지할 수 있었다. 이를 통해 연속적인 객체 추적 과정에서 안정적인 프레임률을 확보할 수 있음을 확인하였다[16].

<표 1> 초당 프레임 처리 속도

DGTSA8_2025_v21n3_1_6_t0001.png 이미지

<표 2>는 ID Switch 횟수와 IDF1 점수를 제시한 결과이다. ID Switch는 동일 객체가 추적 과정에서 잘못된 ID로 전환되는 빈도를 의미하며, 추적 일관성과 안정성을 평가하는 중요한 지표이다. 반면 IDF1은 전체 추적과정에서 객체의 정체성을 얼마나 정확히 유지하는지를 보여주는 척도로, 알고리즘의 식별 성능을 평가한다.

<표 2> ID Switch 횟수 및 IDF1

DGTSA8_2025_v21n3_1_6_t0002.png 이미지

Kalman Filter 기법은 상대적으로 높은 FPS를 기록하였으나, ID 전환이 빈번하게 발생하여 추적의 일관성이 저하되는 한계를 보였다. 이에 반해 Mask R-CNN 기법은 처리 속도는 많이 감소하였지만, IDF1 지표와 ID 유지 능력 측면에서 뚜렷한 개선 효과를 확인할 수 있다. 특히 본 논문에서 제안하고 있는 가중치 적용 Mask R-CNN 기법은 Kalman Filter 대비 ID Switch 발생 횟수를 절반 이하로 줄이는 동시에 안정적인 추적 속도로, 다중 객체 추적 환경에서의 효과성을 입증하였다.

<표 3>은 각 기법의 다중 객체 추적 성능을 비교하기 위한 실험 결과를 나타내고 있는데 앞서 설명한 것처럼 MOTA와 IDF1 지표를 통해 보다 정확하고 안정적으로 객체를 추적하는지를 정량적으로 확인 할 수 있다.

<표 3> 객체 추적 정확도(MOTA)

DGTSA8_2025_v21n3_1_7_t0001.png 이미지

Kalman Filter는 상대적으로 높은 처리 속도를 보였으나, 추적 과정에서 ID 전환이 빈번하게 발생하여 MOTA와 IDF1 지표 모두 낮은 값을 기록하였다. 이에 반해 Mask R-CNN 기반 기법은 픽셀 단위의 마스크 정보를 활용함으로써 추적 정확도가 개선되었고, ID 유지 능력 또한 향상되는 결과를 나타냈다. 그리고, 본 논문에서 제안한 가중치 적용 Mask R-CNN 기법은 MOTA와 IDF1 지표 모두에서 안정적이며 우수한 성능을 보였다. 이를 통해 제안한 기법이 다중 객체 추적 환경에서도 안정적이고 강인한 성능을 제공함을 확인할 수 있었다[17].

본 장에서는 Mask R-CNN 기반의 객체 추적 시스템을 적용하여 수행한 실험 결과를 제시하였다. 제안된 시스템은 각 프레임에서 정밀한 객체 분할을 수행한 뒤, 프레임 간 연계 모듈을 통해 객체의 연속적인 추적을 가능하게 한다. 이러한 과정을 통해 기존 전통적 기법에서 나타나던 추적 정확도 및 일관성의 한계를 효과적으로 극복할 수 있었다. 나아가, 다양한 응용 환경에서 본 시스템이 높은 신뢰성과 실시간성을 제공함을 실험을 통해 확인하였다.

Ⅴ. 결론

본 논문에서는 Mask R-CNN 기반 객체 추적 시스템을 설계 및 구현하고, 다양한 환경에서 성능을 검증하였다. 기존의 배경 차감법이나 Kalman Filter 기반 추적 기법은 조명 변화, 동적 배경, 객체 가림(Occlusion) 등 환경적 요인에 취약하여 추적 정확도가 저하되는 한계를 보였다.

이를 해결하기 위해 본 논문에서는 Mask R-CNN에 가중치 기법을 적용하여 객체와 배경 간의 변화를 효과적으로 구분하고, 그 효과와 타당성을 실험을 통해 검증하였다. 제안된 방법은 조명 변화, 배경 움직임, 객체 형태 변형 등 다양한 환경 요인에 대응하여 객체 검출 및 추적 과정에서 발생할 수 있는 오류를 최소화하였다. 또한 기존 기법 대비 안정적이고 정밀한 객체-배경 분리가 가능했으며, 이를 통해 추적 성능 지표(MOTA, IDF1)가 유의미하게 향상됨을 확인하였다. 나아가 객체의 경계와 픽셀 단위 마스크를 정밀하게 산출함으로써, 객체의 ID를 안정적으로 유지하며 연속적인 객체 추적이 가능함을 실험적으로 확인하여 객체의 ID를 안정적으로 유지하며 연속적인 객체 추적이 가능함을 실험적으로 입증하였다.

실험 결과, 제안한 가중치 적용 Mask R-CNN 기반 추적 시스템은 기존 전통적 기법 대비 객체 검출 정확도와 추적 안정성 측면에서 우수한 성능을 보였다. 특히 조명 변화나 복잡한 배경 환경에서도 높은 강건성을 유지하였으며, 다중 객체 상황에서도 ID 일관성을 유지하였으며, 객체별 마스크 정보를 활용함으로써 단순한 이동 경로 추적을 넘어, 객체의 형태 및 행동 특성을 정밀하게 분석할 수 있는 기반을 마련하였다. 이는 향후 행동 인식, 이상 상황 탐지, 지능형 영상 감시 시스템 등으로의 확장 가능성을 보여준다.

향후에는 실시간성 확보와 일반화 성능 개선, 나아가 행동 인식과의 결합을 통해 보다 지능적인 객체 추적 시스템으로 발전시킬 수 있을 것으로 기대된다.

References

  1. Sharma, H. and Jala, A. S., "Single object tracking: A survey of methods, datasets, and evaluation metrics," arXiv preprint arXiv:2201.13066, 2022.
  2. Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., and Batra, D., "Visual explanations from deep networks via gradient-based localization," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp.618-626.
  3. Guan, Z., Wang, Z., Zhang, G., Li, L., Zhang, M., Shi, Z., and Jiang, N., "Multi-object tracking review: retrospective and emerging trend," Artificial Intelligence Review, Vol.58, No.8, 2025, pp.235-260. https://doi.org/10.1007/s10462-025-11212-y
  4. Li, J., Xu, X., Jiang, Z., and Jiang, B., "Adaptive Kalman Filter for Real-Time Visual Object Tracking Based on Autocovariance Least Square Estimation," Applied Sciences, Vol.14, No.3, 2024, p.1045. https://doi.org/10.3390/app14031045
  5. Bouwmans, T., "Traditional and recent approaches in background modeling for foreground detection: An overview," Computer Science Review, Vol.11, 2014, pp.31-66. https://doi.org/10.1016/j.cosrev.2014.04.001
  6. Oise, G. P., Unuigbokhai, N. B., Onwuzo, C. J., Nwabuokei, O. C., Ejenarhome, P. O., Atake, O. M., and Bakare, S. K., "YOLOv8-DeepSORT: A High-Performance Framework for Real-Time Multi-Object Tracking with Attention and Adaptive Optimization," Journal of Science Research and Reviews, Vol.2, No.2, 2025, pp.92-100. https://doi.org/10.70882/josrar.2025.v2i2.50
  7. Dadallage, K. M., Amogi, B. R., Khot, L. R., and Leal Yepes, F. A., "Mask R-CNN and centroid tracking algorithm to process UAV based thermal-RGB video for drylot cattle heat stress monitoring," Drones, Vol.8, No.9, 2024, p.491. https://doi.org/10.3390/drones8090491
  8. Fang, S., Zhang, B., and Hu, J., "Improved Mask R-CNN multi-target detection and segmentation for autonomous driving in complex scenes," Sensors, Vol.23, No.8, 2023, p.3853. https://doi.org/10.3390/s23083853
  9. Sunjib, K. and ByungJoon, P., "Image segmentation algorithm based on weight information," Korea Information and Electronics Communication Technology, Vol.10, 2016, pp.472-477. https://doi.org/10.17661/jkiiect.2016.9.5.472
  10. Zhang, Y., Sun, P., Jiang, Y., Yu, D., Weng, F., and Yuan, Z., "Bytetrack: Multi-object tracking by associating every detection box," in European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2022, pp.1-21.
  11. Xavier, A. I., Villavicencio, C., Macrohon, J., Jeng, J. H., and Hsieh, J. G., "Object detection via gradient-based Mask R-CNN using machine learning algorithms," Machines, Vol.10, No.5, 2022, p.340. https://doi.org/10.3390/machines10050340
  12. Zhang, Y., Chu, J., Leng, L., and Miao, J., "Mask-refined R-CNN: A network for refining object details in instance segmentation," Sensors, Vol.20, No.4, 2020, p.1010. https://doi.org/10.3390/s20041010
  13. Duan, L., Yang, R., Yue, K., Sun, Z., and Yuan, G., "Video object detection via space–time feature aggregation and result reuse," IET Image Processing, Vol.18, No.12, 2024, pp.3356-3367. https://doi.org/10.1049/ipr2.13179
  14. Li, Z., Ma, Y., Chen, Y., Zhang, X., and Sun, J., "Joint COCO and Mapillary workshop at ICCV 2019: COCO instance segmentation challenge track," arXiv preprint arXiv:2010.02475, 2020.
  15. Wu, Y., Lim, J., and Yang, M. H., "Online object tracking: A benchmark," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2023, pp.2411-2418.
  16. Bernardin, K. and Stiefelhagen, R., "Evaluating multiple object tracking performance: the CLEAR MOT metrics," EURASIP Journal on Image and Video Processing, 2008, pp.1-10. https://doi.org/10.1155/2008/246309
  17. Stanczyk, T. and Bremond, F., "Masks and Boxes: Combining the Best of Both Worlds for Multi-Object Tracking," arXiv preprint arXiv:2409, 2024.