Abstract
The promotion of intelligent security community construction has greatly enhanced the intelligence and safety of residential areas. In order to further establish a security-oriented community, this paper proposes the utilization of facial recognition based on community surveillance footage to identify suspicious individuals. To address the difficulties in capturing facial images caused by factors such as low pixel resolution and varying shooting angles in surveillance footage, the following optimization strategies are proposed in this paper : Firstly, a lightweight global search facial detection network is designed based on convolutional modules and Vision Transformer modules. The Vision Transformer module is introduced to enhance the global retrieval capability of the network. Secondly, the structure of the Vision Transformer module is optimized by adding pooling layers in the feature block extraction and segmentation stage to reduce the number of module parameters. The feature blocks are mapped and computed with the feature maps to improve the corresponding feature correlation. Thirdly, in the face alignment stage, an Anchor Free mechanism is adopted to generate elliptical face localization regions for more accurate fitting of faces and reducing interference from other background information in the final identity recognition stage. Finally, the similarity between faces is calculated using Euclidean space distance to determine corresponding personnel identities. Through relevant experiments and tests on the self-built facial identity dataset in this paper's residential surveillance system, the proposed facial detection network achieves an average improvement of 3.11% in detection accuracy compared to other detection networks, reaching 97.19%. In terms of facial identity recognition, the designed model achieves an average improvement of 3.43% with a recognition accuracy of 95.84.
스마트 지역사회 건설이 추진됨에 따라 지역사회의 지능화와 안전성이 크게 향상되었으며, 스마트 지역사회 보안을 더욱 구축하기 위해 본 연구에서는 지역사회 모니터링 비디오 화면을 기반으로 얼굴 식별을 구현하여 의심스러운 사람들의 출현을 보다 정확하게 식별하고 경고하는 것이다. 모니터링되는 영상 화면의 낮은 픽셀과 촬영 각도 변화와 같은 요인으로 인해 얼굴 화면을 캡처하는 데 어려움이 있음을 고려하여 최적화 해결방법을 제안한다. 첫째, 컨벌루션 모듈과 비전 트랜스포머 모듈을 결합한 경량화적인 얼굴 감지 네트워크를 전체적으로 검색하는 것을 설계했다. 네트워크의 전체 검색 능력을 향상시키기 위해 Vision Transformer 모듈을 네트워크에 처음으로 추가했다. 둘째, Vision Transformer 모듈에 대해 심층 구조 최적화를 수행했는데, 특징 블록 추출 및 분할 단계에서 모듈의 매개변수 수를 줄이기 위해 풀링 레이어가 추가되었다. 동시에 특성 블록과 특성 맵을 일치시켜 특성 간의 연관성을 향상시킨다. 셋째, 얼굴 정렬 단계에서 Anchor Free 메커니즘을 기반으로 타원형 얼굴 위치 영역을 설계했다. 이렇게 하면 얼굴과 더 정확하게 일치시키고 배경 정보의 간섭을 줄이며 최종 식별을 더 정확하게 할 수 있다. 넷째, 유클리드 공간 거리를 사용하여 얼굴의 유사성을 계산하여 사람의 신분을 결정한다. 관련 실험 테스트 후, 설계한 얼굴 감지 네트워크는 감지 정확도가 평균 3.11% 향상되어 97.19%에 도달했다. 얼굴 식별 측면에서 모델 인식 정확도는 평균 3.43% 향상되어 95.84%에 도달했다.