Abstract
In this paper, a lightweight network with fewer parameters compared to the existing object detection method is proposed. In the case of the currently used detection model, the network complexity has been greatly increased to improve accuracy. Therefore, the proposed network uses EfficientNet as a feature extraction network, and the subsequent layers are formed in a pyramid structure to utilize low-level detailed features and high-level semantic features. An attention process was applied between pyramid structures to suppress unnecessary noise for prediction. All computational processes of the network are replaced by depth-wise and point-wise convolutions to minimize the amount of computation. The proposed network was trained and evaluated using the PASCAL VOC dataset. The features fused through the experiment showed robust properties for various objects through a refinement process. Compared with the CNN-based detection model, detection accuracy is improved with a small amount of computation. It is considered necessary to adjust the anchor ratio according to the size of the object as a future study.
본 논문에서는 기존 객체 검출 방법 대비 매개변수를 감소시킨 경량화 네트워크를 제안하였다. 현재 사용되는 검출 모델의 경우 정확도 향상을 위해 네트워크 복잡도를 크게 늘렸다. 따라서, 제안하는 네트워크는 EfficientNet을 특징 추출 네트워크로 사용하였으며, 후속 레이어는 저수준 세부 특징과 고수준의 의미론적 특징을 활용하기 위해 피라미드 구조로 형성하였다. 피라미드 구조 사이에 attention process를 적용하여 예측에 불필요한 노이즈를 억제하였다. 네트워크의 모든 연산 과정은 depth-wise 및 point-wise 컨볼루션으로 대체하여 연산량을 최소화하였다. 제안하는 네트워크는 PASCAL VOC 데이터셋으로 학습 및 평가하였다. 실험을 통해 융합된 특징은 정제 과정을 거쳐 다양한 객체에 대해 견고한 특성을 보였다. CNN 기반 검출 모델과 비교하였을 때 적은 연산량으로 검출 정확도가 향상되었다. 향후 연구로 객체의 크기에 맞게 앵커의 비율을 조절할 필요성이 사료된다.