1. 서론
4차 산업혁명은 디지털 기술의 발전과 인공지능의 활용으로 사회 및 경제 전반에 혁신을 가져왔다. 이에 따라 CCTV의 보급과 사용이 증가하였다. CCTV는 범죄 예방, 공공 안전 강화, 교통 관리 등 다양한 목적으로 사용되며, 범죄 조사나 사고 조사와 같은 상황에서 중요한 증거 자료로 활용된다. 그러나 이러한 카메라 시스템은 사람을 식별하기 위해 얼굴 인식 등의 기술을 사용하여 개인 신상정보가 드러날 가능성이 존재한다[1].
정보 보호와 개인정보 보호는 4차 산업혁명 시대에 매우 중요한 문제로 대두되고 있다. 많은 국가에서는 개인 정보 보호법과 같은 규정을 마련하여 개인 정보의 수집, 사용, 저장, 공유에 일정한 제약과 보호 메커니즘을 마련하고 있다. 그러나 카메라의 범위와 해상도가 향상되며 개인의 신상정보가 노출되는 위험성이 증가하고 있다. 따라서, CCTV를 설치하고 사용할 때는 개인정보 보호에 특히 신경을 써야 한다. 기술적으로 얼굴 모자이크, 익명화처리, 데이터 암호화 같은 방법을 사용하여 개인정보 유출 위험을 줄일 수 있다. 그러나 얼굴 모자이크 처리 진행시 개인의 얼굴 특징이 완전히 가려서 식별성을 상실시킨다는 단점이 존재한다. 익명화 처리에서는 데이터 유용성의 감소가 존재한다. 익명화 처리는 개인 식별 정보를 제거하거나 변형하여 식별을 불가능하게 한다. 이로 인해 재식별화가 불가능하다는 단점이 있다. 데이터 암호화는 데이터를 안전하게 보호하는 데 도움이 되나 계산적 비용과 복잡성을 동반한다. 이에 데이터의 양이 많아지게 되면 암호화 키의 관리 및 안전 관리에 대한 비용과 복잡성이 증가한다. 이러한 이유에서 개인 정보를 보호함과 동시에 개인을 식별할 수 있는 새로운 기술의 필요성이 존재한다.
본 논문에서는 개인정보 보호와 관리 수준을 최대화하며 개인을 식별할 수 있는 기술로 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해를 제안한다. 제안하는 방법은 YOLO와 DeepSORT를 이용하여 영상에 존재하는 객체를 탐지한다. 탐지한 객체 중 사람만 선택하여 추적을 진행한다. 추적되는 사람은 YOLO를 통해 선택된 바운딩 박스에서 위치 정보를 전달받아 인물의 색상을 추출한다. 추출되는 인물의 색상 값은 프레임별로 다양하게 나타난다. 그중 객체의 특징을 나타낼 수 있는 고유한 특징값을 추출하기 위하여 SVD를 이용한다. 이를 통해 다양한 영상에서 인물의 색상 특징을 반영하여 동일 인물을 탐색한다.
본 논문의 구성은 다음과 같다. 2장에서 색상 히스토그램과 SVD에 관한 관련 연구를 기술한다. 3장에서 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해에 대해 기술한다. 이후 4장에서 실험을 진행한다. 마지막으로 5장에서 결론을 기술한다.
2. 관련 연구
2.1 흑백 히스토그램
흑백 히스토그램은 흑백 이미지에서 사용되는 히스토그램이다. 각각의 픽셀은 단일한 밝기 값을 가지며, 0부터 25까지의 범위로 표현된다. 흑백 히스토그램을 이용할 때는 픽셀의 강도 분포를 보여준다. 이는 이미지에 존재하는 밝기의 분포를 보이는 것을 의미한다. 밝기 값에 따라 픽셀 수가 얼마나 많은지를 표현하여 이미지의 명암과 대비 정보를 제공한다. 흑백 히스토그램의 x축은 밝기 값으로 0부터 255까지의 수를 가지며, y축은 해당 밝기 값은 이미지 픽셀의 수를 의미한다.
흑백 히스토그램을 사용하는 경우 이미지의 명암과 대비에 대해 알 수 있다[2]. 이를 이용하여 픽셀의 밝기 분포를 시각적으로 확인할 수 있어 이미지의 명암 조정에 유용하다. 또한 흑백 이미지에 사용되므로 데이터의 크기가 작고, 계산량이 RGB 히스토그램에 비하여 상대적으로 적다. 이는 흑백 이미지에서는 컬러 정보를 고려하지 않고 단순 픽셀의 밝기만을 고려하므로, 컬러 이미지에 비해 계산과 분석이 단순하기 때문이다. 하지만 컬러 정보를 무시하기 때문에 컬러 이미지에서는 색상 정보를 파악할 수 없으며 흑백 이미지만을 대상으로 하므로, 컬러 정보가 중요한 분석이나 처리에는 제한적이다.
2.2 특이값 분해
특이값 분해(Singular Value Decomposition, SVD)는 선형 대수학의 개념 중 하나로, 행렬을 세 개의 행렬 곱으로 분해하는 방법이다[4]. 특이값 분해는 행렬은 낮은 랭크의 근사 행렬로 분해하여 데이터의 주성분을 추출하거나 데이터 압축, 행렬 연산의 효율적 계산 등 다양한 응용을 위해 사용한다[5].
어떤 행렬 A를 특이값 분해를 이용하여 분해하면 식 1과 같이 표현된다.
A = UΣVT (식 1)
식 1에서 U, Σ, VT는 행렬을 의미한다. U는 왼쪽 특이 벡터 행렬을 의미한다. 직교 행렬로 구성되며, 열벡터는 A의 열공간을 기저로 하는 단위 벡터이다. 데이터의 주성분을 나타내는 역할을 한다. Σ는 특이값 대각행렬을 의미한다. 대각선에는 행렬 A의 특이값들이 내림차순으로 정렬되어 있다. 특이값은 A의 고유값의 제곱근에 해당하며, 데이터의 중요성을 나타낸다. 특이값 중에서도 작은 값들은 데이터의 잡음이나 불필요한 정보를 나타낸다. VT는 오른쪽 특이벡터 전치행렬을 의미한다. 직교 행렬로 구성되며, 행벡터는 A의 행공간을 기저로 하는 단위 벡터이다. 데이터의 특징을 나타내는 역할을 한다. 그림 1은 특이값 분해를 시각화하여 나타낸 것이다.
(그림 1) SVD 시각화
(Figure 1) SVD Visualization
그림 1에서는 행렬 A를 특이값 분해를 이용하여 특이 벡터 행렬, 특이값 대각행렬, 특이벡터 전치행렬로 분배한 결과를 나타낸다.
특이값 분해는 주로 데이터의 차원 축소에 이용된다. 차원 축소에 특이값 분해를 사용하기 위해서는 특이값 대각행렬 Σ에서 작은 특이값들을 제거한다. 또한 제거한 특이값들에 해당하는 왼쪽 특이벡터 U와 오른쪽 특이벡터 VT를 선택하여 행렬 A를 낮은 랭크의 근사 행렬로 표현할 수 있다. 이를 통해 데이터를 더 작은 차원으로 투영하거나 압축할 수 있다.
3. 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해
객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해는 총 네 단계로 나누어 진행한다. 첫 번째로 데이터를 수집하고 전처리한다. 두 번째로 영상에 존재하는 사람을 탐지하고 추적한다. 세 번째로 흑백 히스토그램을 이용하여 영상 속 사람이 가진 색상 정보를 추출한다. 마지막으로 추출한 색상을 배열로 정리하여 저장한다. 저장한 배열을 특이값 분해를 이용하여 인물 색상 값의 특이값을 선택한다. 그림 2는 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해 프로세스를 나타낸다.
(그림 2) 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해 프로세스
(Figure 2) Histogram-Based Singular Value Decomposition for Object Identification and Tracking Process
3.1 데이터 수집 및 전처리
객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해를 위해 CCTV 영상 데이터를 수집한다. 영상 데이터는 AI 허브의 이상행동 CCTV 영상을 이용한다[6]. 해당 데이터는 폭행, 싸움, 절도, 데이트 폭력 및 추행 등 12가지의 이상행동 비디오 데이터이다. 해당 데이터에서는 다양한 각도에서 촬영된 사람 영상이 존재하여 동일 인물을 판단하기에 적합하다. 해당 데이터에서 동일 인물이 등장하는 영상으로 총 1000건의 영상 데이터를 수집한다. 수집한 영상 데이터는 영상에 따라 길이가 다르다. 다른 영상의 길이는 이후 데이터에서 사람의 특징을 추출할 때 서로 다른 양의 특징 벡터가 생성될 가능성이 존재한다. 동일한 특징 벡터의 생성을 위하여 입력 영상의 길이를 수정한다. 이를 통해 각 영상 데이터에서 동일한 크기의 특징 벡터를 추출 가능하다.
3.2 사람 탐지 및 추적
영상 내 사람에 대한 특징을 추출하기 위해서는 영상에 사람의 존재 여부와 사람이 존재하는 경우 위치 탐지가 선행되어야 한다[7]. 이를 위해 YOLO를 이용하여 영상에 사람의 여부를 판단한다. YOLO는 실시간 객체 탐지를 위한 알고리즘이다. 이 중 YOLOv5는 이전 YOLO 모델보다 성능과 정확도가 향상되었다. 따라서 본 논문에서는 YOLOv5를 이용하여 객체를 탐지한다. 영상에 객체가 존재하는 경우 YOLO는 객체의 크기에 맞춰 사각형 형태의 바운딩 박스를 생성한다[8]. 생성되는 바운딩 박스는 객체의 위치 정보를 객체의 중심 좌표 x, y와 너비와 높이 값을 통해 표현한다[9]. 또한 YOLO를 통해 탐지한 객체는 클래스를 구분한다. 클래스는 객체에 대한 정보를 나타내는 것으로 클래스에서 사람을 선택하는 경우 탐지 결과가 사람으로 표현된 객체만을 추출한다.
객체의 클래스가 사람인 객체에 대한 바운딩 박스 위치 정보를 DeepSORT로 전달한다. DeepSORT는 객체 추적을 위한 알고리즘이다. DeepSORT에 바운딩 박스 위치 정보를 전달하여 영상에서 사람의 다음 움직임을 예측한다. 이를 통해 영상에 사람이 존재하는 경우 영상에 존재하는 사람에 대한 탐지 및 추적한다.
3.3 흑백 히스토그램을 이용한 색상 추출
영상에 사람이 존재하고 이를 추적이 완료된 영상에서 사람의 특징을 추출하기 위해 흑백 히스토그램을 이용한다. 사용하는 영상 데이터가 CCTV 영상 데이터이기 때문에 낮과 밤의 일관성이 떨어진다. 특히 낮과 밤은 조명 조건이 다르다. 따라서 컬러 영상에서 낮과 밤의 차이가 뚜렷하게 나타난다. 이를 RGB 히스토그램으로 추출하게 되면 조명에 대한 조건이 극명하게 대비되어 동일 인물이 존재하는 경우 동일 인물을 탐지하지 못할 가능성이 존재한다. 따라서 낮과 밤의 일관성을 유지하기 위해 흑백 히스토그램을 이용하여 조명의 조건에 상관없이 픽셀의 강도만을 고려한다.
흑백 히스토그램을 사용하게 되는 경우 RGB 히스토그램에 비하여 채널의 수가 적기 때문에 색상 정보에 대한 노이즈나 변동성을 고려할 필요가 사라진다[10]. 또한 채널의 감소로 연산 비용이 낮아지고 저장 공간을 조금 차지하기 때문에 실시간 처리가 가능하다.
3.4 특이값 분해를 통한 사람 특징 추출
흑백 히스토그램을 통해 추출된 영상에 존재하는 사람에 대한 색상 정보는 각 픽셀에 대한 강도 값의 빈도수이다[11]. 이를 행렬로 만들어 저장한다. 이때 저장되는 행렬은 바운딩 박스를 통해 전달되는 위치 정보를 통해 추출된 색상으로 사람 외의 다른 정보 또한 저장된다[12]. 영상에서 생성되는 바운딩 박스는 프레임의 변화에 따라 인물은 동일하지만 배경은 변화한다. 이는 사람이 가지고 있는 색상은 동일하지만 배경의 색상은 변화함을 의미한다. 따라서 인물이 가진 고유한 색상만을 반영하기 위해서 특이값 분해를 이용하여 영상 전체에 존재하는 인물의 고유한 색상 값을 저장한다. 저장된 행렬을 특이값 분해를 하는 경우 특이값과 특이 벡터가 추출된다[13]. 이 중 특이값은 행렬의 중요도를 나타내며, 사람의 색상 정보에 해당하는 부분을 표현한다. 특이값 행렬의 최댓값은 입력 배열 중 열 또는 행의 최댓값을 의미한다. 따라서 본 논문에서는 특이값 배열을 내림차순으로 정렬하여 상위 N개의 평균을 이용해 특징을 추출한다. 이는 단순 N개의 평균을 구하는 것과 달리 데이터의 구조와 패턴을 파악하여 평균을 구하기 때문에 영상에 존재하는 사람의 색상 정보를 기존의 평균을 사용할 때보다 정확하게 추출한다.
4. 실험 및 결과
수집한 인물의 고유한 색상 특징을 사용하여 동일 인물을 판단하기 위해 유클리드 거리를 이용한다[14]. 유클리드 거리는 공간에 존재하는 두 점 사이의 직선거리를 나타낸다. 이를 이용하여 서로 다른 영상에서 선택된 두 사람에 대한 특이값 사이의 거리를 계산한다. 또한 정확도 측정을 위해 Top-N 정확도를 사용한다. Top-N 정확도는 주어진 선택지 중에서 정답이 포함된 상위 N개의 선택지를 정확하게 예측하는 정확도를 의미한다. 따라서 실험에서는 상위 N개의 선택지 중에서 입력한 사람과 동일한 사람을 탐지하는 경우 성공으로 간주한다.
4.1 색상 추출 방법 비교
사람의 색상 정보를 추출하기 위해 RGB 히스토그램을 사용하는 경우와 흑백 히스토그램을 사용하는 경우를 비교한다. 비교를 위해 특이값 분해 후 상위 10개의 특징값의 평균을 이용하여 정확도를 계산한다. 표 1은 색상 추출 비교 결과이다.
(표 1) 색상 추출 비교 결과
(Table 1) Color extraction comparison
표 1에서 RGB 히스토그램과 흑백 히스토그램 모두 Top-1에서는 100.00의 동일한 정확도를 보인다. 하지만 Top-2에서는 흑백 히스토그램을 사용하는 경우가 RGB 히스토그램을 사용하는 경우보다 18.00 높은 성능을 보인다. 이는 입력된 영상에 조명의 차이가 존재하기 때문에 밝은 조명이 어두워질수록 RGB 히스토그램을 사용할 때 정확도가 낮아짐을 의미한다.
4.2 고유 색상 추출 방법 비교
추출된 색상 정보를 영상 전체에 존재하는 사람의 고유한 색상 값으로 변환하기 위해 평균을 사용하는 경우와 특이값 분해를 사용하는 경우를 비교한다. 이때 평균과 특이값 분해 모두 동일하게 입력 영상의 최대 프레임의 수를 사용하여 계산한다. 표 2는 고유 색상 추출 방법 비교 결과이다.
(표 2) 고유 색상 추출 방법 비교 결과
(Table 2) Unique color extraction comparison
표 2에서 평균을 사용하여 고유 색상을 계산하는 것보다 특이값 분해를 이용하여 계산하는 경우 16.00 높게 나왔다. 이는 특이값 분해를 사용하여 고유 색상을 추출하는 경우 평균을 사용할 때보다 데이터의 구조와 특징을 더욱 잘 반영함을 의미한다.
4.3 특징 개수 비교
고유 색상을 추출하기 위해 특이값 분해 후 상위 특징을 선택하여 선택된 특징의 평균을 계산하였다. 따라서 선택되는 특징 개수에 따른 정확도를 비교한다. 입력되는 행렬의 크기는 행은 영상의 프레임의 수를 의미하며 열은 히스토그램의 크기를 의미한다. 이는 프레임의 수가 256을 넘지 않는 이상 히스토그램의 크기인 256이 최대 선택할 수 있는 특징의 개수이다. 따라서 특징의 개수를 256까지 늘려가며 정확도를 비교한다. 비교를 위해 정확도는 Top-2만을 사용하여 계산하였다. 표 3은 특징 개수 비교 결과이다.
(표 3) 특징 개수 비교 결과
(Table 3) Feature count comparison
표 3의 비교에서 사용한 입력 영상의 프레임 개수는 32개이다. 표 3에서는 특징의 개수가 32개 이상이 되는 경우 모두 74.00의 정확도를 보인다. 이후 전체 특징의 개수인 256개를 반영하는 경우 64.00으로 오히려 정확도가 감소하는 모습을 보인다. 이는 적절한 개수의 특징 선택이 정확도를 결정함을 의미한다.
5. 결론
본 논문에서는 객체 식별 및 추적을 위한 히스토그램 기반 특이값 분해를 제안하였다. 제안하는 방법은 영상에 존재하는 사람을 탐지하기 위해 YOLO와 DeepSORT를 사용하여 사람을 탐지 및 추적한다. 이후 사람이 존재하는 경우 흑백 히스토그램을 이용해 사람의 색상 정보를 추출한다. 추출한 색상 정보를 특이값 분해를 이용하여 사람이 가지고 있는 고유한 색상 정보를 추출한다. 이를 통해 입력 영상에 존재하는 조명의 영향을 최소화하면서도 데이터의 구조와 패턴을 파악한 사람의 고유 색상 추출이 가능하다.
이를 통해 CCTV에서 개인을 식별할 때 사람의 색상 정보만을 이용하기 때문에 개인 정보를 보호할 수 있다. 또한 흑백 히스토그램 사용을 통해 입력 영상에서 발생할 수 있는 조명의 영향과 노이즈를 최소화하였다. 그뿐만 아니라 특이값 분해를 사용하여 사람이 가지고 있는 색상 정보 중 의미있는 데이터만을 선택하여 추출이 가능하다.
References
- D. H. Lee, and N. Park, "Privacy Protection Method based on Multi-Object Authentication in Intelligent CCTV Environment," Journal of KIISE, Vol. 46, No. 2, pp. 154-160, 2019. http://doi.org/10.5626/JOK.2019.46.2.154
- Y. Zhan, and G. Zhang, "An improved OTSU algorithm using histogram accumulation moment for ore segmentation," Symmetry, Vol. 11, No. 3, 2019. https://doi.org/10.3390/sym11030431
- H. Jia, K. Sun, W. Song, X. Peng, C. Lang, and Y. Li, "Multi-strategy emperor penguin optimizer for RGB histogram-based color satellite image segmentation using Masi entropy," IEEE Access, Vol. 7, pp. 134448-134474, 2019. https://doi.org/10.1109/ACCESS.2019.2942064
- Z. Zainol, J. S. The, and M. Alawida, "A new chaotic image watermarking scheme based on SVD and IWT," IEEE Access, Vol. 8, pp. 43391-43406, 2020. https://doi.org/10.1109/ACCESS.2020.2978186
- J. W. Baek, and K. Chung, "Multi-Context Mining based Graph Neural Network for predicting Emerging Health Risk," IEEE Access, Vol. 11, pp. 15153-15163, 2023. https://doi.org/10.1109/ACCESS.2023.3243722
- AI Hub, [Online] : https://aihub.or.kr/, 2023.
- H. J. Kwon, M. J. Kim, J. W. Baek, and K. Chung, "Voice Frequency Synthesis using VAWGAN based Amplitude Scaling for Emotion Transformation," KSII Transactions on Internet & Information Systems, Vol. 16, No. 2, pp. 713-725, 2022. http://doi.org/10.3837/tiis.2022.02.018
- J. H. Kim, N. Kim, Y. W. Park, and C. S. Won, "Object detection and classification based on YOLO-V5 with improved maritime dataset," Journal of Marine Science and Engineering, Vol. 10, No. 3, 2022. https://doi.org/10.3390/jmse10030377
- B. U. Jeon, and K. Chung, "CutPaste-Based Anomaly Detection Model using Multi Scale Feature Extraction in Time Series Streaming Data," KSII Transactions on Internet & Information Systems, Vol. 16, No. 8, pp. 2787-2800, 2022. http://doi.org/10.3837/tiis.2022.08.018
- I. Kurniastuti, A. Andini, and S. I. Soraya, "Analysis of RGB range value on fingernail image for detecting diabetes mellitus risk," Bali Med. J., Vol. 11, No. 1, pp. 265-271, 2022. https://doi.org/10.15562/bmj.v11i1.3096
- T. K. Halder, K. Sarkar, A. Mandal and S. Sarkar, "A novel histogram feature for brain tumor detection," Int. J. Inf. Technol., Vol. 14, No. 4, pp. 1883-1892, 2022. https://doi.org/10.3390/s22166243
- D. Maji, S. Nagori, M. Mathew and D. Poddar, "Yolo-pose: Enhancing yolo for multi person pose estimation using object keypoint similarity loss", Proc. IEEE Comput. Soc. Conf. Comput. Vis., pp. 2637-2646, 2022. https://doi.org/10.48550/arXiv.2204.06806
- S. Peng, K. Sugiyame and T. Mine, "SVD-GCN: A simplified graph convolution paradigm for recommendation," in Proc. of ACM Int. Conf. Inf. Knowl. Manag, pp. 1625-1634, 2022. https://doi.org/10.1145/3511808.3557462