• 제목/요약/키워드: Deep learning input images

검색결과 185건 처리시간 0.024초

Adaptive Face Mask Detection System based on Scene Complexity Analysis

  • Kang, Jaeyong;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권5호
    • /
    • pp.1-8
    • /
    • 2021
  • 코로나바이러스-19(COVID-19)의 대유행에 따라 전 세계 수많은 확진자가 발생하고 있으며 국민을 불안에 떨게 하고 있다. 바이러스 감염 확산을 방지하기 위해서는 마스크를 제대로 착용하는 것이 필수적이지만 몇몇 사람들은 마스크를 쓰지 않거나 제대로 착용하지 않고 있다. 본 논문에서는 영상 이미지에서의 효율적인 마스크 감지 시스템을 제안한다. 제안 방법은 우선 입력 이미지의 모든 얼굴의 영역을 YOLOv5를 사용하여 감지하고 감지된 얼굴의 수에 따라 3가지의 장면 복잡도(Simple, Moderate, Complex) 중 하나로 분류한다. 그 후 장면 복잡도에 따라 3가지 ResNet(ResNet-18, 50, 101) 중 하나를 기반으로 한 Faster-RCNN을 사용하여 얼굴 부위를 감지하고 마스크를 제대로 착용하였는지 식별한다. 공개 마스크 감지 데이터셋을 활용하여 실험한 결과 제안한 장면 복잡도 기반 적응적인 모델이 다른 모델에 비해 가장 성능이 뛰어남을 확인하였다.

자동 암종 분류를 위한 딥러닝 영상처리 기법의 적용성 검토 연구 (A Feasibility Study on Application of a Deep Convolutional Neural Network for Automatic Rock Type Classification)

  • 추엔 팜;신휴성
    • 터널과지하공간
    • /
    • 제30권5호
    • /
    • pp.462-472
    • /
    • 2020
  • 암종 분류은 현장의 지질학적 또는 지반공학적 특성 파악을 위해 요구되는 매우 기본적인 행위이나 암석의 성인, 지역, 지질학적 이력 특성에 따라 동일 암종이라 하여도 매우 다양한 형태와 색 조성을 보이므로 깊은 지질학적 학식과 경험 없이는 쉬운 일은 아니다. 또한, 다른 여러 분야의 분류 작업에서 딥러닝 영상 처리 기법들이 성공적으로 적용되고 있으며, 지질학적 분류나 평가 분야에서도 딥러닝 기법의 적용에 대한 관심이 증대되고 있다. 따라서, 본 연구에서는 동일 암종임에도 다양한 형태와 색을 갖게 되는 실제 상황을 감안하여, 정확한 자동 암종 분류를 위한 딥러닝 기법의 적용 가능성에 대해 검토하였다. 이러한 기법은 향후에 현장 암종분류 작업을 수행하는 현장 기술자들을 지원할 수 있는 효과적인 툴로 활용 가능할 것이다. 본 연구에서 사용된 딥러닝 알고리즘은 매우 깊은 네트워크 구조로 객체 인식과 분류를 할 수 있는 것으로 잘 알려진 'ResNet' 계열의 딥러닝 알고리즘을 사용하였다. 적용된 딥러닝에서는 10개의 암종에 대한 다양한 암석 이미지들을 학습시켰으며, 학습 시키지 않은 암석 이미지들에 대하여 84% 수준 이상의 암종 분류 정확도를 보였다. 본 결과로 부터 다양한 성인과 지질학적 이력을 갖는 다양한 형태와 색의 암석들도 지질 전문가 수준으로 분류해 낼 수 있는 것으로 파악되었다. 나아가 다양한 지역과 현장에서 수집된 암석의 이미지와 지질학자들의 분류 결과가 학습데이터로 지속적으로 누적이 되어 재학습에 반영된다면 암종분류 성능은 자동으로 향상될 것이다.

딥 러닝 분류 모델을 이용한 직하방과 경사각 영상 기반의 벼 출수기 판별 (Estimation of Rice Heading Date of Paddy Rice from Slanted and Top-view Images Using Deep Learning Classification Model)

  • 박혁진;상완규;장성율;권동원;임우진;이지현;정남진;조정일
    • 한국농림기상학회지
    • /
    • 제25권4호
    • /
    • pp.337-345
    • /
    • 2023
  • 벼의 출수기를 추정하는 것은 농업생산성과 관련된 중요한 과정 중 하나이지만 세계적인 이상기후의 증가로 벼의 출수기를 추정하는 것이 어려워지고 있다. 본 연구에서는 CNN 분류모델을 사용하여 다양한 영상데이터에서 벼의 출수기를 추정하려고 시도하였다. 드론과 타워형 영상관측장치 그리고 일반 RGB 카메라로 촬영된 직하방과 경사각 영상을 수집하였다. 수집한 영상은 CNN 모델의 입력데이터로 사용하기 위해서 전처리를 진행하였고, 사용된 CNN 아키텍처는 이미지 분류 모델에서 일반적으로 사용되는 ResNet50, InceptionV3 그리고 VGG19 를 사용하였다. 각각의 아키텍처는 모델의 종류, 영상의 유형과 관계없이 0.98 이상의 정확도를 나타내었다. 또한 CNN 분류 모델이 영상의 어떤 특징을 보고 분류하였는지 시각적으로 확인하기 위해서 Grad-CAM 을 사용하였다. Grad-CAM 결과 CNN 분류 모델은 벼의 출수를 이삭의 형태에 높은 가중치를 두어 분류 하는 것을 확인하였다. 다음으로 작성된 모델이 실제 논 포장 모니터링 이미지에서 벼의 출수기를 정확하게 추정하는지 확인하였다. 각각 다른 지역 4 개의 벼 포장에서 벼의 출수기를 약 하루정도의 차이로 추정하는 것을 확인하였다. 이 방법을 통해서 다양한 논 포장의 모니터링 이미지를 활용하여 자동적이고 정량적으로 벼의 출수기를 추정 할 수 있다고 판단된다.

A modified U-net for crack segmentation by Self-Attention-Self-Adaption neuron and random elastic deformation

  • Zhao, Jin;Hu, Fangqiao;Qiao, Weidong;Zhai, Weida;Xu, Yang;Bao, Yuequan;Li, Hui
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.1-16
    • /
    • 2022
  • Despite recent breakthroughs in deep learning and computer vision fields, the pixel-wise identification of tiny objects in high-resolution images with complex disturbances remains challenging. This study proposes a modified U-net for tiny crack segmentation in real-world steel-box-girder bridges. The modified U-net adopts the common U-net framework and a novel Self-Attention-Self-Adaption (SASA) neuron as the fundamental computing element. The Self-Attention module applies softmax and gate operations to obtain the attention vector. It enables the neuron to focus on the most significant receptive fields when processing large-scale feature maps. The Self-Adaption module consists of a multiplayer perceptron subnet and achieves deeper feature extraction inside a single neuron. For data augmentation, a grid-based crack random elastic deformation (CRED) algorithm is designed to enrich the diversities and irregular shapes of distributed cracks. Grid-based uniform control nodes are first set on both input images and binary labels, random offsets are then employed on these control nodes, and bilinear interpolation is performed for the rest pixels. The proposed SASA neuron and CRED algorithm are simultaneously deployed to train the modified U-net. 200 raw images with a high resolution of 4928 × 3264 are collected, 160 for training and the rest 40 for the test. 512 × 512 patches are generated from the original images by a sliding window with an overlap of 256 as inputs. Results show that the average IoU between the recognized and ground-truth cracks reaches 0.409, which is 29.8% higher than the regular U-net. A five-fold cross-validation study is performed to verify that the proposed method is robust to different training and test images. Ablation experiments further demonstrate the effectiveness of the proposed SASA neuron and CRED algorithm. Promotions of the average IoU individually utilizing the SASA and CRED module add up to the final promotion of the full model, indicating that the SASA and CRED modules contribute to the different stages of model and data in the training process.

저화질 공공 CCTV의 영상 화질 개선 방안 연구 (A study to Improve the Image Quality of Low-quality Public CCTV)

  • 권영우;백성현;김보순;오성훈;전영준;정석찬
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.125-137
    • /
    • 2021
  • 국내 CCTV 설치 대수는 약 130만 대 이상으로 연평균 15% 이상 증가하고 있다. 하지만 설치수요 대비 한정된 예산으로 인해 50만 화소의 저화질 CCTV로 인프라가 구성되면서 영상 내 객체 식별에 한계가 발생하고 있다. 공공분야 CCTV는 범죄 예방, 교통 정보수집(단속), 시설물의 관리, 화재 예방 등 다양한 분야에서 활용성이 높고 특히 설치되어 있는 것만으로도 각종 범죄 해결에서 큰 역할을 수행하기 때문에 공공 CCTV는 국내외적으로 증가하는 추세이다. 하지만 현재 공공 CCTV는 안개, 눈, 비 등의 환경적 요소로 인한 식별이 불가능한 문제와 저화질 CCTV 설치로 인한 수집 영상의 품질 문제 등의 잠재적인 문제점을 인지한 채 운영하고 있다. 따라서 본 연구에서는 공공 CCTV의 대표적인 저화질 요소를 제거하기 위해 먼지, 물방울, 안개 등으로 인해 발생하는 영상 내 빛의 산란광 감쇄 방법 방법과 딥러닝 알고리즘을 활용하여 입력 영상을 4K 이상 영상으로 화질을 개선하는 알고리즘 적용 방법을 제안한다.

초-고해상도 영상 스타일 전이 (Super High-Resolution Image Style Transfer)

  • 김용구
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.104-123
    • /
    • 2022
  • 신경망 기반 스타일 전이 기법은 영상의 고차원적 구조적 특징을 반영하여 높은 품질의 스타일 전이 결과를 제공함으로써 최근 크게 주목받고 있다. 본 논문은 이러한 신경망 기반 스타일 전이의 GPU 메모리 제한에 따른 해상도 한계에 대한 문제를 다룬다. 신경망 출력이 가진 제한적 수용장 특징을 바탕으로, 부분 영상 기반의 스타일 전이 손실함수 경사도 연산이 전체 영상을 대상으로 구한 경사도 연산과 동일한 결과를 생성할 수 있을 것으로 기대할 수 있다. 이러한 아이디어를 기반으로, 본 논문에서는, 스타일 전이 손실함수의 각 구성 요소에 대한 경사도 연산 구조를 분석하고, 이를 통해 부분 영상의 생성 및 패딩에 대한 필요조건을 구하고, 전체 영상의 신경망 출력에 좌우되는 경사도 연산 요구 데이터를 확인하여 구조화함으로써 재귀적 초고해상도 스타일 전이 알고리즘을 개발하였다. 제안된 기법은, 사용하는 GPU 메모리가 처리할 수 있는 크기로 초고해상도 입력을 분할하여 스타일 전이를 수행함으로써, GPU 메모리 한계에 따른 해상도 제한을 받지 않으며, 초고해상도 스타일 전이에서만 감상할 수 있는 독특한 세부 영역의 전이 스타일 특징을 제공할 수 있다.

인공 신경망 기반의 지문 영상 복원 알고리즘 (An Algorithm of Fingerprint Image Restoration Based on an Artificial Neural Network)

  • 장석우;이사무엘;김계영
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.530-536
    • /
    • 2020
  • 일반적인 지문 인식기에서 이용되는 미뉴셔 특징은 표현 공격에는 강건하지만 오 정합률이 상대적으로 높다는 약점이 있다. 따라서 미뉴셔 특징은 스켈리톤 영상과 함께 이용되는 경향이 있다. 보통 지문의 미뉴셔 특징에 대한 보안 취약성 연구는 많이 진행되어 있으나 스켈리톤에 대한 취약성 연구는 미약한 형편이므로 본 연구에서는 스켈리톤에 대한 표현 공격의 취약성을 분석하고자 한다. 이를 위해, 본 연구에서는 지문의 스켈리톤으로부터 학습 알고리즘을 사용해 원래의 지문을 복구하는 방법을 제시한다. 본 논문에서 제시된 방법은 기존의 Pix2Pix 모델에 잠재 벡터를 추가한 새로운 학습 모델인 Pix2Pix을 제안하여, 보다 자연스러운 지문을 생성한다. 본 논문의 실험 결과에서는 제시된 학습 알고리즘을 이용해 원래의 지문을 복원한 다음, 복원된 지문을 지문 인식기에 입력시켜 높은 인식률을 달성하였다. 그러므로 본 연구는 스켈리톤을 함께 이용하는 지문 인식기는 표현 공격에 취약함을 검증하였다. 본 논문에서 제시된 접근방법은 지문 인식 및 복원, 비디오 보안, 생체 인식 등과 연관된 많은 실제적인 응용 분야에서 유용하게 사용될 것으로 기대된다.

눈 영상비를 이용한 운전자 상태 경고 시스템 (A Driver's Condition Warning System using Eye Aspect Ratio)

  • 신문창;이원영
    • 한국전자통신학회논문지
    • /
    • 제15권2호
    • /
    • pp.349-356
    • /
    • 2020
  • 본 논문은 교통사고 방지를 위한 운전자의 눈 영상비를 이용한 상태 경고시스템의 설계에 대해 소개하고 있다. 제안하는 운전자 상태 경고 시스템은 눈 인식을 위한 카메라, 카메라를 통해 들어오는 정보를 처리하는 라즈베리파이, 그리고 그 정보를 통해 운전자에게 경고를 줄 때 필요한 부저와 진동기로 구성되어 있다. 운전자의 눈을 인식하기 위해서 기울기 방향성 히스토그램 기술과 딥러닝 기반의 얼굴 표지점 추정 기법을 사용하였다. 동작을 시작하면, 시스템은 눈 주변의 6개의 좌표를 통해 눈 영상비를 계산한다. 그리고 눈을 뜬 상태와 감은 상태의 눈 영상비를 각각 계산한 후 이 두 값으로부터 눈의 상태를 판단하는데 사용하는 문턱 값을 설정한다. 문턱 값이 운전자의 눈 크기에 적응하면서 설정되기 때문에 시스템은 최적의 문턱 값을 사용하여 운전자의 상태를 판단할 수 있다. 또한 낮은 조도에서도 눈을 인식할 수 있도록 회색조 변환 이미지와 LAB모델 이미지를 합성하여 사용하였다.

Lightweight Attention-Guided Network with Frequency Domain Reconstruction for High Dynamic Range Image Fusion

  • 박재현;이근택;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.205-208
    • /
    • 2022
  • Multi-exposure high dynamic range (HDR) image reconstruction, the task of reconstructing an HDR image from multiple low dynamic range (LDR) images in a dynamic scene, often produces ghosting artifacts caused by camera motion and moving objects and also cannot deal with washed-out regions due to over or under-exposures. While there has been many deep-learning-based methods with motion estimation to alleviate these problems, they still have limitations for severely moving scenes. They also require large parameter counts, especially in the case of state-of-the-art methods that employ attention modules. To address these issues, we propose a frequency domain approach based on the idea that the transform domain coefficients inherently involve the global information from whole image pixels to cope with large motions. Specifically we adopt Residual Fast Fourier Transform (RFFT) blocks, which allows for global interactions of pixels. Moreover, we also employ Depthwise Overparametrized convolution (DO-conv) blocks, a convolution in which each input channel is convolved with its own 2D kernel, for faster convergence and performance gains. We call this LFFNet (Lightweight Frequency Fusion Network), and experiments on the benchmarks show reduced ghosting artifacts and improved performance up to 0.6dB tonemapped PSNR compared to recent state-of-the-art methods. Our architecture also requires fewer parameters and converges faster in training.

  • PDF

웨어러블 응용을 위한 CNN 기반 손 제스처 인식 (CNN-Based Hand Gesture Recognition for Wearable Applications)

  • 문현철;양안나;김재곤
    • 방송공학회논문지
    • /
    • 제23권2호
    • /
    • pp.246-252
    • /
    • 2018
  • 제스처는 스마트 글라스 등 웨어러블 기기의 NUI(Natural User Interface)로 주목받고 있다. 최근 MPEG에서는 IoT(Internet of Things) 및 웨어러블 환경에서의 효율적인 미디어 소비를 지원하기 위한 IoMT(Internet of Media Things) 표준화를 진행하고 있다. IoMT에서는 손 제스처 검출과 인식이 별도의 기기에서 수행되는 것을 가정하고 이들 모듈간의 인터페이스 규격을 제공하고 있다. 한편, 최근 인식률 개선을 위하여 딥러닝 기반의 손 제스처 인식 기법 또한 활발히 연구되고 있다. 본 논문에서는 IoMT의 유스 케이스(use case)의 하나인 웨어러블 기기에서의 미디어 소비 등 다양한 응용을 위하여 CNN(Convolutional Neural Network) 기반의 손 제스처 인식 기법을 제시한다. 제시된 기법은 스마트 글래스로 획득한 스테레오 비디오로부터 구한 깊이(depth) 정보와 색 정보를 이용하여 손 윤곽선을 검출하고, 검출된 손 윤곽선 영상을 데이터 셋으로 구성하여 CNN을 학습한 후, 이를 바탕으로 입력 손 윤곽선 영상의 제스처를 인식한다. 실험결과 제안기법은 95%의 손 제스처 인식율를 얻을 수 있음을 확인하였다.