• 제목/요약/키워드: Multi-Feature Fusion

검색결과 87건 처리시간 0.021초

Haze-Guided Weight Map 기반 다중해상도 변환 기법을 활용한 가시광 및 SWIR 위성영상 융합 (Visible and SWIR Satellite Image Fusion Using Multi-Resolution Transform Method Based on Haze-Guided Weight Map)

  • 곽태홍;김용일
    • 대한원격탐사학회지
    • /
    • 제39권3호
    • /
    • pp.283-295
    • /
    • 2023
  • 센서 및 위성 기술의 발전에 따라 전세계적으로 다양한 고해상도 다중대역 위성영상이 활용 가능해지고 있다. 다중대역 센서가 가지는 파장에 기인한 고유한 반사, 투과, 산란 특성에 따라 다중대역 위성영상은 지구 관측에 대한 다양한 상호보완적 지표정보를 제공한다. 특히, short-wave infrared (SWIR) 대역은 긴 파장으로 인해 가시광 대역에 비해 Rayleigh 산란에 적게 영향을 받으며, 이로 인해 특정 대기입자를 투과할 수 있다는 특징을 지닌다. 산불, 폭발 등에 의해 발생된 짙은 연기는 가시광 대역의 영상의 가시성을 저하시키고 일부 지역에 대한 지표를 차폐시키는데, SWIR 대역은 이러한 연기에 의해 가려진 지역에 대한 지표정보를 추가로 제공해주기도 한다. 본 연구에서는 이러한 SWIR 대역과 가시광 대역의 영상 정보를 융합하는 다중해상도 변환 기반의 영상 융합 기법을 제안하였다. 제안된 융합 기법의 목적은 상호보완적 관계에 있는 가시광 대역에서의 고해상도 세부적 배경정보와 SWIR 대역에서의 연기 지역에 대한 지표정보를 모두 내포하고 있는 단일 영상을 생성하는 것이다. 이를 위해 본 연구에서는 라플라시안(Laplacian) 피라미드 기반의 다중해상도 변환 기법을 가시광-SWIR 영상 융합에 적용하였다. 다중해상도 변환 기법은 영상 융합에 널리 활용되는 대표적인 영상분해 기반의 방법론으로, 각각의 원 영상을 다양한 스케일로 분해하여 융합하는 기법이다. 또한, 본 연구는 다중해상도 변환 기법에 haze-guided weight map을 융합한 방법론을 제안하였다. Haze-guided weight map은 SWIR 대역이 연기와 같은 특정 대기입자를 투과하여 지표에 대한 정보를 제공해줄 수 있다는 사전지식에 기반하여 제안된 알고리즘으로 다중해상도로 분해된 두 영상을 융합하는 기준이 되는 가중치 지도로써 활용되었다. 제안된 방법론은 가시광 및 SWIR 대역을 포함하고 있는 고해상도 다중대역 위성영상인 Worldview-3 위성영상을 활용하여 검증되었다. 실험 데이터는 주변 산불로 인해 연기가 발생하여 제한된 가시성을 지닌 연기 지역을 포함하고 있으며, 제안된 방법론의 투과 특성을 검증하기 위해 선정되었다. 제안된 기법에 대한 실험결과는 영상 품질 평가 지표를 활용한 정량평가 및 시각평가를 통해 분석되었으며, 결과분석을 통해 연기 지역에 대한 지표정보를 내포하는 SWIR 대역의 밝은 특징값과 가시광 대역 내의 고해상도 정보가 손실없이 최종 융합 영상에 내포됨을 확인할 수 있었다.

DA-Res2Net: a novel Densely connected residual Attention network for image semantic segmentation

  • Zhao, Xiaopin;Liu, Weibin;Xing, Weiwei;Wei, Xiang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권11호
    • /
    • pp.4426-4442
    • /
    • 2020
  • Since scene segmentation is becoming a hot topic in the field of autonomous driving and medical image analysis, researchers are actively trying new methods to improve segmentation accuracy. At present, the main issues in image semantic segmentation are intra-class inconsistency and inter-class indistinction. From our analysis, the lack of global information as well as macroscopic discrimination on the object are the two main reasons. In this paper, we propose a Densely connected residual Attention network (DA-Res2Net) which consists of a dense residual network and channel attention guidance module to deal with these problems and improve the accuracy of image segmentation. Specifically, in order to make the extracted features equipped with stronger multi-scale characteristics, a densely connected residual network is proposed as a feature extractor. Furthermore, to improve the representativeness of each channel feature, we design a Channel-Attention-Guide module to make the model focusing on the high-level semantic features and low-level location features simultaneously. Experimental results show that the method achieves significant performance on various datasets. Compared to other state-of-the-art methods, the proposed method reaches the mean IOU accuracy of 83.2% on PASCAL VOC 2012 and 79.7% on Cityscapes dataset, respectively.

MEDU-Net+: a novel improved U-Net based on multi-scale encoder-decoder for medical image segmentation

  • Zhenzhen Yang;Xue Sun;Yongpeng, Yang;Xinyi Wu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권7호
    • /
    • pp.1706-1725
    • /
    • 2024
  • The unique U-shaped structure of U-Net network makes it achieve good performance in image segmentation. This network is a lightweight network with a small number of parameters for small image segmentation datasets. However, when the medical image to be segmented contains a lot of detailed information, the segmentation results cannot fully meet the actual requirements. In order to achieve higher accuracy of medical image segmentation, a novel improved U-Net network architecture called multi-scale encoder-decoder U-Net+ (MEDU-Net+) is proposed in this paper. We design the GoogLeNet for achieving more information at the encoder of the proposed MEDU-Net+, and present the multi-scale feature extraction for fusing semantic information of different scales in the encoder and decoder. Meanwhile, we also introduce the layer-by-layer skip connection to connect the information of each layer, so that there is no need to encode the last layer and return the information. The proposed MEDU-Net+ divides the unknown depth network into each part of deconvolution layer to replace the direct connection of the encoder and decoder in U-Net. In addition, a new combined loss function is proposed to extract more edge information by combining the advantages of the generalized dice and the focal loss functions. Finally, we validate our proposed MEDU-Net+ MEDU-Net+ and other classic medical image segmentation networks on three medical image datasets. The experimental results show that our proposed MEDU-Net+ has prominent superior performance compared with other medical image segmentation networks.

이동 로봇의 강인 위치 추정을 위한 단안 비젼 센서와 레이저 구조광 센서의 베이시안 센서융합 (Bayesian Sensor Fusion of Monocular Vision and Laser Structured Light Sensor for Robust Localization of a Mobile Robot)

  • 김민영;안상태;조형석
    • 제어로봇시스템학회논문지
    • /
    • 제16권4호
    • /
    • pp.381-390
    • /
    • 2010
  • This paper describes a procedure of the map-based localization for mobile robots by using a sensor fusion technique in structured environments. A combination of various sensors with different characteristics and limited sensibility has advantages in view of complementariness and cooperation to obtain better information on the environment. In this paper, for robust self-localization of a mobile robot with a monocular camera and a laser structured light sensor, environment information acquired from two sensors is combined and fused by a Bayesian sensor fusion technique based on the probabilistic reliability function of each sensor predefined through experiments. For the self-localization using the monocular vision, the robot utilizes image features consisting of vertical edge lines from input camera images, and they are used as natural landmark points in self-localization process. However, in case of using the laser structured light sensor, it utilizes geometrical features composed of corners and planes as natural landmark shapes during this process, which are extracted from range data at a constant height from the navigation floor. Although only each feature group of them is sometimes useful to localize mobile robots, all features from the two sensors are simultaneously used and fused in term of information for reliable localization under various environment conditions. To verify the advantage of using multi-sensor fusion, a series of experiments are performed, and experimental results are discussed in detail.

최소 분류 오차 기법과 멀티 모달 시스템을 이용한 감정 인식 알고리즘 (Emotion Recognition Algorithm Based on Minimum Classification Error incorporating Multi-modal System)

  • 이계환;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제46권4호
    • /
    • pp.76-81
    • /
    • 2009
  • 본 논문에서는 최소 분류 오차 기법 (Minimum Classification Error, MCE)에 기반한 감정 인식을 위한 알고리즘 멀티 모달(Multi-modal) 시스템을 기반으로 제안한다. 사람의 음성 신호로부터 추출한 특징벡터와 장착한 바디센서로부터 구한 피부의 전기반응도 (Galvanic Skin Response, GSR)를 기반으로 특징벡터를 구성하여 이를 Gaussian Mixture Model (GMM)으로 구성하고 이를 기반으로 구해지는 로그 기반의 우도 (Likelihood)를 사용한다. 특히, 변별적 가중치 학습을 사용하여 최적화된 가중치를 특징벡터에 인가하여 주요 감정을 식별하는 데 이용하여 성능향상을 도모한다. 실험결과 제안된 감정 인식이 기존의 방법보다 우수한 성능을 보인 것을 알 수 있었다.

Human Action Recognition Via Multi-modality Information

  • Gao, Zan;Song, Jian-Ming;Zhang, Hua;Liu, An-An;Xue, Yan-Bing;Xu, Guang-Ping
    • Journal of Electrical Engineering and Technology
    • /
    • 제9권2호
    • /
    • pp.739-748
    • /
    • 2014
  • In this paper, we propose pyramid appearance and global structure action descriptors on both RGB and depth motion history images and a model-free method for human action recognition. In proposed algorithm, we firstly construct motion history image for both RGB and depth channels, at the same time, depth information is employed to filter RGB information, after that, different action descriptors are extracted from depth and RGB MHIs to represent these actions, and then multimodality information collaborative representation and recognition model, in which multi-modality information are put into object function naturally, and information fusion and action recognition also be done together, is proposed to classify human actions. To demonstrate the superiority of the proposed method, we evaluate it on MSR Action3D and DHA datasets, the well-known dataset for human action recognition. Large scale experiment shows our descriptors are robust, stable and efficient, when comparing with the-state-of-the-art algorithms, the performances of our descriptors are better than that of them, further, the performance of combined descriptors is much better than just using sole descriptor. What is more, our proposed model outperforms the state-of-the-art methods on both MSR Action3D and DHA datasets.

새로운 하이브리드 스테레오 정합기법에 의한 3차원 선소추출 (3D Line Segment Detection using a New Hybrid Stereo Matching Technique)

  • 이동훈;우동민;정영기
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권4호
    • /
    • pp.277-285
    • /
    • 2004
  • We present a new hybrid stereo matching technique in terms of the co-operation of area-based stereo and feature-based stereo. The core of our technique is that feature matching is carried out by the reference of the disparity evaluated by area-based stereo. Since the reference of the disparity can significantly reduce the number of feature matching combinations, feature matching error can be drastically minimized. One requirement of the disparity to be referenced is that it should be reliable to be used in feature matching. To measure the reliability of the disparity, in this paper, we employ the self-consistency of the disunity Our suggested technique is applied to the detection of 3D line segments by 2D line matching using our hybrid stereo matching, which can be efficiently utilized in the generation of the rooftop model from urban imagery. We carry out the experiments on our hybrid stereo matching scheme. We generate synthetic images by photo-realistic simulation on Avenches data set of Ascona aerial images. Experimental results indicate that the extracted 3D line segments have an average error of 0.5m and verify our proposed scheme. In order to apply our method to the generation of 3D model in urban imagery, we carry out Preliminary experiments for rooftop generation. Since occlusions are occurred around the outlines of buildings, we experimentally suggested multi-image hybrid stereo system, based on the fusion of 3D line segments. In terms of the simple domain-specific 3D grouping scheme, we notice that an accurate 3D rooftop model can be generated. In this context, we expect that an extended 3D grouping scheme using our hybrid technique can be efficiently applied to the construction of 3D models with more general types of building rooftops.

다중 해상도 영상 등록을 위한 가변 원형 템플릿을 이용한 특징 정합 (Feature Matching using Variable Circular Template for Multi-resolution Image Registration)

  • 예철수
    • 대한원격탐사학회지
    • /
    • 제34권6_3호
    • /
    • pp.1351-1367
    • /
    • 2018
  • 다중 센서 영상을 영상 융합, 변화 탐지, 시계열 분석에 활용하기 위해서는 두 영상 간의 영상 등록 과정이 필수적이다. 영상 등록을 위해서는 서로 다른 공간 해상도를 가지는 다중 센서 영상 사이의 스케일과 회전각도 차이를 정확히 검출해야 한다. 본 논문에서는 다중 해상도 영상 간의 영상 등록을 위하여 가변 원형 템플릿을 이용한 새로운 특징 정합 기법을 제안한다. 제안하는 정합 기법은 스케일이 작은 영상의 특징점을 중심으로 원형 템플릿을 설정하고 스케일이 큰 영상에서는 가변 원형 템플릿을 생성한다. 가변 원형 템플릿의 스케일을 일정한 스케일 단위로 변경한 후에 가변 원형 템플릿을 일정 각도 단위로 회전시키면서 두 원형 템플릿 사이의 상호 정보량이 최대가 될 때의 가변 원형 템플릿의 스케일, 회전 각도 그리고 중심 위치를 각각 검출한다. 제안한 방법을 서로 다른 공간 해상도를 가지는 Kompsat(Korea Multi-Purpose Satellite) 2호, 3호, 3A호 영상 조합에 적용한 결과, 스케일 팩터 오차는 0.004 이하, 회전 각도 오차는 $0.3^{\circ}$ 이하, 제어점의 위치 오차는 1 화소 이하의 정합 성능을 보였다.

3차원 객체 탐지를 위한 어텐션 기반 특징 융합 네트워크 (Attention based Feature-Fusion Network for 3D Object Detection)

  • 유상현;강대열;황승준;박성준;백중환
    • 한국항행학회논문지
    • /
    • 제27권2호
    • /
    • pp.190-196
    • /
    • 2023
  • 최근 들어, 라이다 기술의 발전에 따라 정확한 거리 측정이 가능해지면서 라이다 기반의 3차원 객체 탐지 네트워크에 대한 관심이 증가하고 있다. 기존의 네트워크는 복셀화 및 다운샘플링 과정에서 공간적인 정보 손실이 발생해 부정확한 위치 추정 결과를 발생시킨다. 본 연구에서는 고수준 특징과 높은 위치 정확도를 동시에 획득하기 위해 어텐션 기반 융합 방식과 카메라-라이다 융합 시스템을 제안한다. 먼저, 그리드 기반의 3차원 객체 탐지 네트워크인 Voxel-RCNN 구조에 어텐션 방식을 도입함으로써, 다중 스케일의 희소 3차원 합성곱 특징을 효과적으로 융합하여 3차원 객체 탐지의 성능을 높인다. 다음으로, 거짓 양성을 제거하기 위해 3차원 객체 탐지 네트워크의 탐지 결과와 이미지상의 2차원 객체 탐지 결과를 결합하는 카메라-라이다 융합 시스템을 제안한다. 제안 알고리즘의 성능평가를 위해 자율주행 분야의 KITTI 데이터 세트를 이용하여 기존 알고리즘과의 비교 실험을 수행한다. 결과적으로, 차량 클래스에 대해 BEV 상의 2차원 객체 탐지와 3차원 객체 탐지 부분에서 성능 향상을 보였으며 특히 Voxel-RCNN보다 차량 Moderate 클래스에 대하여 정확도가 약 0.47% 향상되었다.

Multi-Task FaceBoxes: A Lightweight Face Detector Based on Channel Attention and Context Information

  • Qi, Shuaihui;Yang, Jungang;Song, Xiaofeng;Jiang, Chen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권10호
    • /
    • pp.4080-4097
    • /
    • 2020
  • In recent years, convolutional neural network (CNN) has become the primary method for face detection. But its shortcomings are obvious, such as expensive calculation, heavy model, etc. This makes CNN difficult to use on the mobile devices which have limited computing and storage capabilities. Therefore, the design of lightweight CNN for face detection is becoming more and more important with the popularity of smartphones and mobile Internet. Based on the CPU real-time face detector FaceBoxes, we propose a multi-task lightweight face detector, which has low computing cost and higher detection precision. First, to improve the detection capability, the squeeze and excitation modules are used to extract attention between channels. Then, the textual and semantic information are extracted by shallow networks and deep networks respectively to get rich features. Finally, the landmark detection module is used to improve the detection performance for small faces and provide landmark data for face alignment. Experiments on AFW, FDDB, PASCAL, and WIDER FACE datasets show that our algorithm has achieved significant improvement in the mean average precision. Especially, on the WIDER FACE hard validation set, our algorithm outperforms the mean average precision of FaceBoxes by 7.2%. For VGA-resolution images, the running speed of our algorithm can reach 23FPS on a CPU device.