• 제목/요약/키워드: Encoder-decoder Architecture

검색결과 50건 처리시간 0.03초

딥러닝 기반 3차원 라이다의 반사율 세기 신호를 이용한 흑백 영상 생성 기법 (Deep Learning Based Gray Image Generation from 3D LiDAR Reflection Intensity)

  • 김현구;유국열;박주현;정호열
    • 대한임베디드공학회논문지
    • /
    • 제14권1호
    • /
    • pp.1-9
    • /
    • 2019
  • In this paper, we propose a method of generating a 2D gray image from LiDAR 3D reflection intensity. The proposed method uses the Fully Convolutional Network (FCN) to generate the gray image from 2D reflection intensity which is projected from LiDAR 3D intensity. Both encoder and decoder of FCN are configured with several convolution blocks in the symmetric fashion. Each convolution block consists of a convolution layer with $3{\times}3$ filter, batch normalization layer and activation function. The performance of the proposed method architecture is empirically evaluated by varying depths of convolution blocks. The well-known KITTI data set for various scenarios is used for training and performance evaluation. The simulation results show that the proposed method produces the improvements of 8.56 dB in peak signal-to-noise ratio and 0.33 in structural similarity index measure compared with conventional interpolation methods such as inverse distance weighted and nearest neighbor. The proposed method can be possibly used as an assistance tool in the night-time driving system for autonomous vehicles.

Crack segmentation in high-resolution images using cascaded deep convolutional neural networks and Bayesian data fusion

  • Tang, Wen;Wu, Rih-Teng;Jahanshahi, Mohammad R.
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.221-235
    • /
    • 2022
  • Manual inspection of steel box girders on long span bridges is time-consuming and labor-intensive. The quality of inspection relies on the subjective judgements of the inspectors. This study proposes an automated approach to detect and segment cracks in high-resolution images. An end-to-end cascaded framework is proposed to first detect the existence of cracks using a deep convolutional neural network (CNN) and then segment the crack using a modified U-Net encoder-decoder architecture. A Naïve Bayes data fusion scheme is proposed to reduce the false positives and false negatives effectively. To generate the binary crack mask, first, the original images are divided into 448 × 448 overlapping image patches where these image patches are classified as cracks versus non-cracks using a deep CNN. Next, a modified U-Net is trained from scratch using only the crack patches for segmentation. A customized loss function that consists of binary cross entropy loss and the Dice loss is introduced to enhance the segmentation performance. Additionally, a Naïve Bayes fusion strategy is employed to integrate the crack score maps from different overlapping crack patches and to decide whether a pixel is crack or not. Comprehensive experiments have demonstrated that the proposed approach achieves an 81.71% mean intersection over union (mIoU) score across 5 different training/test splits, which is 7.29% higher than the baseline reference implemented with the original U-Net.

Multi-Scale Dilation Convolution Feature Fusion (MsDC-FF) Technique for CNN-Based Black Ice Detection

  • Sun-Kyoung KANG
    • 한국인공지능학회지
    • /
    • 제11권3호
    • /
    • pp.17-22
    • /
    • 2023
  • In this paper, we propose a black ice detection system using Convolutional Neural Networks (CNNs). Black ice poses a serious threat to road safety, particularly during winter conditions. To overcome this problem, we introduce a CNN-based architecture for real-time black ice detection with an encoder-decoder network, specifically designed for real-time black ice detection using thermal images. To train the network, we establish a specialized experimental platform to capture thermal images of various black ice formations on diverse road surfaces, including cement and asphalt. This enables us to curate a comprehensive dataset of thermal road black ice images for a training and evaluation purpose. Additionally, in order to enhance the accuracy of black ice detection, we propose a multi-scale dilation convolution feature fusion (MsDC-FF) technique. This proposed technique dynamically adjusts the dilation ratios based on the input image's resolution, improving the network's ability to capture fine-grained details. Experimental results demonstrate the superior performance of our proposed network model compared to conventional image segmentation models. Our model achieved an mIoU of 95.93%, while LinkNet achieved an mIoU of 95.39%. Therefore, it is concluded that the proposed model in this paper could offer a promising solution for real-time black ice detection, thereby enhancing road safety during winter conditions.

DMB 서비스를 위한 DCT 기반 MPEG-2/H.264 비디오 트랜스코더 시스템 구조 (DCT-domain MPEG-2/H.264 Video Transcoder System Architecture for DMB Services)

  • 이주경;권순영;박성호;김영주;정기동
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.637-646
    • /
    • 2005
  • DMB 서비스를 위해 제공되는 대부분의 비디오 컨텐츠는 MPEG-2 규격으로 압축된 채 제공되므로 실제 서비스를 위해서 H.264 규격으로 트랜스코딩을 수행해야 한다. 현재 사용되는 트랜스코딩 방식은 MPEG-2 비트열(bit-stream)의 디코딩과 H.264 규격으로의 인코딩 과정을 연속적으로 수행하는 픽셀 기반 직렬 구조형 (CPDT, Cascaded Pixel-Domain Transcoding Architecture)이다. 이 방식은 두 표준의 소스 코드를 수정 없이 사용할 수 있으므로 구현이 용이하지만 변환을 위한 처리 시간이 길고 디코딩과 인코딩을 반복하므로 화질의 열화가 발생 할 수 있다. 본 논문에서는 MPEG-2로 압축된 비디오 비트열을 H.264로 트랜스크딩 할 때 변환 시간을 향상할 수 있는 DCT 기반의 열린 회로형 트랜스코더 구조(DCT-OPEN)와 변환시간은 CPDT와 유사하지만 화질면에서 우수한 DCT 기반 닫힌 회로형 트랜스코더(DCT-CLOSED) 구조를 제안한다. 제안된 구조에서는 CPDT 방식과 달리 압축 과정의 중간 단계인 DCT(Discrete Cosine Transform)를 이용하여 변환을 수행한다. 이때, MPEG-2와 H.264의 DCT 단위와 방법이 상이하므로 [l, 2]에서 제안된 방식을 이용하여 DCT 간의 변환을 수행한다. 제안된 구조의 성능 평가를 위해 MPEG-2 TM5하 H.264 JM8 코덱을 수정하여 다양한 구조를 구현하였으며 실험 결과 DCT-OPEN의 경우 CPDT에 비하여 계산 복잡도에서 우수하지만 PSNR 성능은 낮게 나타났으며 DCT-CLOSED의 경우 계산 복잡도는 높으나 화질에서 우수한 것으로 나타났다.

H.264/AVC를 위한 디블록킹 필터의 최적화된 하드웨어 설계 (Optimized Hardware Design of Deblocking Filter for H.264/AVC)

  • 정윤진;류광기
    • 대한전자공학회논문지SD
    • /
    • 제47권1호
    • /
    • pp.20-27
    • /
    • 2010
  • 본 논문에서는 고성능 H.264/AVC 복호기 설계를 위해 디블록킹 필터의 수행시간 단축과 저전력 설계를 위한 필터링 순서 및 효율적인 메모리 구조를 제안하고 5단 파이프라인으로 구성된 필터의 설계에 대해 기술한다. 디블록킹 필터는 블록 경계에서 발생하는 왜곡을 제거하여 영상의 화질을 개선시키지만 하나의 경계에 여러 번 필터링을 수행하여 많은 메모리 접근과 반복되는 연산과정이 수반된다. 따라서 본 논문에서는 메모리 접근과 필터 수행 사이클을 최소화하는 새로운 필터 순서를 제안 하고 반복되는 연산의 효율적 관리를 위해 파이프라인 구조를 적용하였다. 제안하는 디블록킹 필터는 메모리 읽기, 임계값 계산, 전처리 연산, 필터 연산, 메모리 쓰기로 구성된 5단 파이프라인으로 구현되어 순차적인 필터 연산에 병렬적 처리가 가능하며 각 단계에 클록 게이팅을 적용하여 하드웨어 자원에 불필요한 전력을 감소시켰다. 또한, 적은 내부 트랜스포지션 버퍼를 사용하면서 필터링 순서를 효율적으로 개선하여 필터 수행을 위한 메모리 접근과 수행 사이클을 감소시켰다. 제안하는 디블록킹 필터의 하드웨어는 Verilog HDL로 설계 하였으며 기존의 복호기에 통합하여 Modelsim 6.2g 시뮬레이터를 이용해 검증하였다. 입력으로는 표준 참조 소프트웨어 JM9.4 부호기를 통해 압축한 다양한 QCIF영상 샘플을 사용하였다. 기존 필터들과 수행 사이클을 비교한 결과, 제안하는 구조의 설계가 비교적 적은 트랜스포지션 버퍼를 사용했으며 최소 20%의 수행 사이클이 감소함을 확인하였다.

Motion JPEG2000을 위한 실시간 비디오 압축 프로세서의 하드웨어 구조 및 설계 (Hardware Architecture and its Design of Real-Time Video Compression Processor for Motion JPEG2000)

  • 서영호;김동욱
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권1호
    • /
    • pp.1-9
    • /
    • 2004
  • In this paper, we proposed a hardware(H/W) structure which can compress and recontruct the input image in real time operation and implemented it into a FPGA platform using VHDL(VHSIC Hardware Description Language). All the image processing element to process both compression and reconstruction in a FPGA were considered each of them was mapped into a H/W with the efficient structure for FPGA. We used the DWT(discrete wavelet transform) which transforms the data from spatial domain to the frequency domain, because use considered the motion JPEG2000 as the application. The implemented H/W is separated to both the data path part and the control part. The data path part consisted of the image processing blocks and the data processing blocks. The image processing blocks consisted of the DWT Kernel for the filtering by DWT, Quantizer/Huffman Encoder, Inverse Adder/Buffer for adding the low frequency coefficient to the high frequency one in the inverse DWT operation, and Huffman Decoder. Also there existed the interface blocks for communicating with the external application environments and the timing blocks for buffering between the internal blocks. The global operations of the designed H/W are the image compression and the reconstruction, and it is operated by the unit or a field synchronized with the A/D converter. The implemented H/W used the 54%(12943) LAB(Logic Array Block) and 9%(28352) ESB(Embedded System Block) in the APEX20KC EP20K600CB652-7 FPGA chip of ALTERA, and stably operated in the 70MHz clock frequency. So we verified the real time operation. that is. processing 60 fields/sec(30 frames/sec).

임베디드 시스템에서의 다중 표준 영상 코덱 (Multi-standard Video Codec on Embedded System)

  • 김기철;김민
    • 전자공학회논문지CI
    • /
    • 제40권4호
    • /
    • pp.214-221
    • /
    • 2003
  • 본 논문에서는 H.261과 H.263 표준을 모두 만족하는 영상 코텍을 임베디드 시스템에서 구현한다. 효율적인 실시간 처리를 위하여, 영상 코덱은 하드웨어 모듈과 소프트웨어 모듈로 구분되어 임베디드 시스템에서 통합 설계된다. 소프트웨어 모듈은 실시간 운영체제와 RISC 프로세서를 이용하여 수행되며, 하드웨어 모듈과 연동하여 실시간으로 영상을 압축하고 복원한다. 시스템 버스로는 AMBA AHB가 사용되며 하드웨어 모듈은 AMBA AHB의 마스터(master)와 슬레이브(slave)의 역할을 모두 수행한다. 영상 압축과정을 실시간으로 처리하기 위하여 인코더의 하드웨어 모듈은 파이프라인으로 설계된다. 구현된 영상 코덱은 H.261과 H.263 표준에 준하여 33㎒의 동작 주파수에서 1초 동안에 CIF 화면 15장을 동시에 압축하고 복원한다.

x264와 GPU를 이용한 고속 양안식 3차원 방송 시스템 (Fast Stereoscopic 3D Broadcasting System using x264 and GPU)

  • 최정아;신인용;호요성
    • 방송공학회논문지
    • /
    • 제15권4호
    • /
    • pp.540-546
    • /
    • 2010
  • 사용자에게 보다 실감나는 입체감을 제공하는 양안식 3차원 영상을 위해서는 기존 2차원 영상의 두 배에 해당하는 데이터가 필요하므로 이를 고속으로 처리하는데 어려움이 따른다. 본 논문에서는 2차원 영상과 깊이 영상을 입력 영상으로 한 고속 양안식 3차원 방송 시스템을 제안한다. 제안하는 시스템은 전송해야 할 데이터의 양을 줄이기 위해 전송 전에 H.264/AVC 오픈 소스 고속 부호화기인 x264를 이용하여 부호화를 수행한다. 수신단에서는 수신한 비트스트림을GPU(Graphics Processing Unit)에 내장된 CUDA 비디오 복호기 API를 이용해 설계된 복호기로 고속으로 복호하고, GPU를 이용해 고속으로 가상시점의 영상을 생성하여 양안식 3차원 영상을 재현한다. 제안한 시스템을 이용하면 수신단의 환경에 따라 2차원 디스플레이와 3차원 디스플레이에서 모두 영상을 출력할 수 있다. 컴퓨터 모의 실험을 통해 제안한 시스템이 3차원 양안식 콘텐츠를 초당 최대 24 프레임까지 서비스할 수 있음을 확인했다.

A novel framework for correcting satellite-based precipitation products in Mekong river basin with discontinuous observed data

  • Xuan-Hien Le;Giang V. Nguyen;Sungho Jung;Giha Lee
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.173-173
    • /
    • 2023
  • The Mekong River Basin (MRB) is a crucial watershed in Asia, impacting over 60 million people across six developing nations. Accurate satellite-based precipitation products (SPPs) are essential for effective hydrological and watershed management in this region. However, the performance of SPPs has been varied and limited. The APHRODITE product, a unique gauge-based dataset for MRB, is widely used but is only available until 2015. In this study, we present a novel framework for correcting SPPs in the MRB by employing a deep learning approach that combines convolutional neural networks and encoder-decoder architecture to address pixel-by-pixel bias and enhance accuracy. The DLF was applied to four widely used SPPs (TRMM, CMORPH, CHIRPS, and PERSIANN-CDR) in MRB. For the original SPPs, the TRMM product outperformed the other SPPs. Results revealed that the DLF effectively bridged the spatial-temporal gap between the SPPs and the gauge-based dataset (APHRODITE). Among the four corrected products, ADJ-TRMM demonstrated the best performance, followed by ADJ-CDR, ADJ-CHIRPS, and ADJ-CMORPH. The DLF offered a robust and adaptable solution for bias correction in the MRB and beyond, capable of detecting intricate patterns and learning from data to make appropriate adjustments. With the discontinuation of the APHRODITE product, DLF represents a promising solution for generating a more current and reliable dataset for MRB research. This research showcased the potential of deep learning-based methods for improving the accuracy of SPPs, particularly in regions like the MRB, where gauge-based datasets are limited or discontinued.

  • PDF

블라인드 워터마킹을 내장한 실시간 비디오 코덱의 FPGA기반 단일 칩 구조 및 설계 (FPGA-based One-Chip Architecture and Design of Real-time Video CODEC with Embedded Blind Watermarking)

  • 서영호;김대경;유지상;김동욱
    • 한국통신학회논문지
    • /
    • 제29권8C호
    • /
    • pp.1113-1124
    • /
    • 2004
  • 본 논문에서는 입력 영상을 실시간으로 압축 및 복원할 수 있는 하드웨어(hardware, H/W)의 구조를 제안하고 처리되는 영상의 보안 및 보호를 위한 워터마킹 기법(watermarking)을 제안하여 H/W로 내장하고자 한다. 영상압축과 복원과정을 하나의 FPGA 칩 내에서 처리할 수 있도록 요구되는 모든 영상처리 요소를 고려하였고 VHDL(VHSIC Hardware Description Language)을 사용하여 각각을 효율적인 구조의 H/W로 사상하였다. 필터링과 양자화 과정을 거친 다음에 워터마킹을 수행하여 최소의 화질 감소를 가지고 양자화 과정에 의해 워터마크의 소실이 없으면서 실시간으로 동작이 가능하도록 하였다. 구현된 하드웨어는 크게 데이터 패스부(data path part)와 제어부(Main Controller, Memory Controller)로 구분되고 데이터 패스부는 영상처리 블록과 데이터처리 블록으로 나누어진다. H/W 구현을 위해 알고리즘의 기능적인 간략화를 고려하여 H/W의 구조에 반영하였다. 동작은 크게 영상의 압축과 복원과정으로 구분되고 영상의 압축 시 대기지연 시간 없이 워터마킹이 수행되며 전체 동작은 A/D 변환기에 동기하여 필드단위의 동작을 수행한다. 구현된 H/W는 APEX20KC EP20K600CB652-7 FPGA 칩에서 69%(16980개)의 LAB(Logic Array Block)와 9%(28352개)의 ESB(Embedded System Block)을 사용하였고 최대 약 82MHz의 클록주파수에서 안정적으로 동작할 수 있어 초당 67필드(33 프레임)의 영상에 대해 워터마킹과 압축을 실시간으로 수행할 수 있었다.