• Title/Summary/Keyword: 심층 합성 곱 신경망

Search Result 78, Processing Time 0.03 seconds

Deep Learning-based SISR (Single Image Super Resolution) Method using RDB (Residual Dense Block) and Wavelet Prediction Network (RDB 및 웨이블릿 예측 네트워크 기반 단일 영상을 위한 심층 학습기반 초해상도 기법)

  • Nguyen, Huu Dung;Kim, Eung-Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.5-8
    • /
    • 2019
  • 단일 영상 초해상도 (Single Image Super-Resolution - SISR)기법은 카메라로 획득된 저해상도 영상에 필터 기반의 연산을 적용하여 좋은 화질의 고해상도 영상을 복원하는 과정이다. 최근에 심층 합성곱 신경망 학습의 발전에 따라 단일 영상 초해상도에 적용되는 심층 학습 기법들은 좋은 성과를 보여 주고 있다. 본 논문은 단일 영상 초해상도 성능을 개선하기 위해 웨이블릿 예측 네트워크를 효율적으로 적용하는 방법에 대해 연구하였으며, 저해상도 입력 영상의 특징을 잘 추출해내기 위해 네트워크 내부에 RDB를 적용하여 기존 방식보다 효율적으로 고해상도 영상 복원하는 기법을 제안한다. 모의실험을 통해 제안하는 방법이 기존 방법보다 화질은 약 PSNR 0.18dB만큼 우수하며 속도는 1.17배 빠른 것을 확인하였다.

  • PDF

Semantic Feature Learning and Selective Attention for Video Captioning (비디오 캡션 생성을 위한 의미 특징 학습과 선택적 주의집중)

  • Lee, Sujin;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.865-868
    • /
    • 2017
  • 일반적으로 비디오로부터 캡션을 생성하는 작업은 입력 비디오로부터 특징을 추출해내는 과정과 추출한 특징을 이용하여 캡션을 생성해내는 과정을 포함한다. 본 논문에서는 효과적인 비디오 캡션 생성을 위한 심층 신경망 모델과 그 학습 방법을 소개한다. 본 논문에서는 입력 비디오를 표현하는 시각 특징 외에, 비디오를 효과적으로 표현하는 동적 의미 특징과 정적 의미 특징을 입력 특징으로 이용한다. 본 논문에서 입력 비디오의 시각 특징들은 C3D, ResNet과 같은 합성곱 신경망을 이용하여 추출하지만, 의미 특징은 본 논문에서 제안하는 의미 특징 추출 네트워크를 활용하여 추출한다. 그리고 이러한 특징들을 기반으로 비디오 캡션을 효과적으로 생성하기 위하여 선택적 주의집중 캡션 생성 네트워크를 제안한다. Youtube 동영상으로부터 수집된 MSVD 데이터 집합을 이용한 다양한 실험을 통해, 본 논문에서 제안한 모델의 성능과 효과를 확인할 수 있었다.

Improving Efficiency of Object Detection using Multiple Neural Networks (다중 신경망을 이용한 객체 탐지 효율성 개선방안)

  • Park, Dae-heum;Lim, Jong-hoon;Jang, Si-Woong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.154-157
    • /
    • 2022
  • In the existing Tensorflow CNN environment, the object detection method is a method of performing object labeling and detection by Tensorflow itself. However, with the advent of YOLO, the efficiency of image object detection has increased. As a result, more deep layers can be built than existing neural networks, and the image object recognition rate can be increased. Therefore, in this paper, the detection ability and speed were compared and analyzed by designing an object detection system based on Darknet and YOLO and performing multi-layer construction and learning based on the existing convolutional neural network. For this reason, in this paper, a neural network methodology that efficiently uses Darknet's learning is presented.

  • PDF

Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks (다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출)

  • Jang, Byeong-Yong;Kwon, Oh-Wook
    • Phonetics and Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.89-96
    • /
    • 2019
  • In this paper, we propose a deep learning architecture that can effectively detect speech segmentation in broadcast contents. We also propose a multi-scale time-dilated layer for learning the temporal changes of feature vectors. We implement several comparison models to verify the performance of proposed model and calculated the frame-by-frame F-score, precision, and recall. Both the proposed model and the comparison model are trained with the same training data, and we train the model using 32 hours of Korean broadcast data which is composed of various genres (drama, news, documentary, and so on). Our proposed model shows the best performance with F-score 91.7% in Korean broadcast data. The British and Spanish broadcast data also show the highest performance with F-score 87.9% and 92.6%. As a result, our proposed model can contribute to the improvement of performance of speech detection by learning the temporal changes of the feature vectors.

인공지능 기반 영상 화질 개선 최신 기술 동향

  • Kim, Won-Jun
    • Broadcasting and Media Magazine
    • /
    • v.25 no.1
    • /
    • pp.20-27
    • /
    • 2020
  • 최근 모바일 기기를 위한 카메라 관련 기술이 발전하면서 취득할 수 있는 영상의 화질 또한 크게 향상되고 있다. 그러나, 일상 생활에서 빈번히 발생하는 다양한 실내외 불규칙한 조명 조건 및 저조도 환경은 여전히 영상 화질 저하를 야기한다. 본 고에서는 이러한 문제를 해결하기 위해 최근 널리 연구되고 있는 심층신경망 기반 영상 화질 개선 연구의 최신 동향을 소개하고자 한다. 먼저, 다양한 최적화 기법을 바탕으로 영상 내 조명 성분을 추정하고, 이를 개선하는 방법들에 대해 간략히 설명한다. 또한, 영상 인식, 객체 검출 등에서 뛰어난 성능을 입증한 합성곱 신경망 구조를 기반으로 영상의 잠재적 특징을 효과적으로 검출한 후 이를 바탕으로 개선된 영상을 생성하는 방법에 대해 설명한다. 다양한 데이터셋에 대한 실험 결과를 통해 인공지능 기반 영상 화질 개선의 우수성을 보인다.

Deep Neural Network Weight Transformation for Spiking Neural Network Inference (스파이킹 신경망 추론을 위한 심층 신경망 가중치 변환)

  • Lee, Jung Soo;Heo, Jun Young
    • Smart Media Journal
    • /
    • v.11 no.3
    • /
    • pp.26-30
    • /
    • 2022
  • Spiking neural network is a neural network that applies the working principle of real brain neurons. Due to the biological mechanism of neurons, it consumes less power for training and reasoning than conventional neural networks. Recently, as deep learning models become huge and operating costs increase exponentially, the spiking neural network is attracting attention as a third-generation neural network that connects convolution neural networks and recurrent neural networks, and related research is being actively conducted. However, in order to apply the spiking neural network model to the industry, a lot of research still needs to be done, and the problem of model retraining to apply a new model must also be solved. In this paper, we propose a method to minimize the cost of model retraining by extracting the weights of the existing trained deep learning model and converting them into the weights of the spiking neural network model. In addition, it was found that weight conversion worked correctly by comparing the results of inference using the converted weights with the results of the existing model.

A Bulge Detection Model in Cultural Asset images using Ensemble of Deep Features (심층 특징들의 앙상블을 사용한 목조 문화재 영상에서의 배부름 감지 모델)

  • Kang, Jaeyong;Kim, Inki;Lim, Hyunseok;Gwak, Jeonghwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.129-131
    • /
    • 2021
  • 본 논문에서는 심층 특징 앙상블을 사용하여 목조 문화재의 변위 현상 중 하나인 배부름 현상을 감지할 수 있는 모델을 제안한다. 우선 총 4개의 서로 다른 사전 학습된 합성 곱 신경망을 사용하여 입력 영상에 대한 심층 특징들을 추출한다. 그 이후 4개의 서로 다른 심층 특징들을 결합하여 하나의 특징 벡터를 생성한다. 그 이후 합쳐진 특징 벡터는 완전 연결 계층의 입력 값으로 들어와서 최종적으로 변위가 존재하는지 아닌지에 대한 예측을 수행하게 된다. 데이터 셋으로는 충주시 근처의 문화재에 방문해서 수집한 목조 문화재 이미지를 가지고 정상 및 비정상으로 구분한 데이터 셋을 사용하였다. 실험 결과 심층 특징 앙상블 기법을 사용한 모델이 앙상블 기법을 사용하지 않은 모델보다 더 좋은 성능을 나타냄을 확인하였다. 이러한 결과로 부터 우리가 제안한 방법이 목재 문화재의 배부름 현상에 대한 변위 검출에 있어서 매우 적합함을 보여준다.

  • PDF

Improving Performance of Human Action Recognition on Accelerometer Data (가속도 센서 데이터 기반의 행동 인식 모델 성능 향상 기법)

  • Nam, Jung-Woo;Kim, Jin-Heon
    • Journal of IKEEE
    • /
    • v.24 no.2
    • /
    • pp.523-528
    • /
    • 2020
  • With a widespread of sensor-rich mobile devices, the analysis of human activities becomes more general and simpler than ever before. In this paper, we propose two deep neural networks that efficiently and accurately perform human activity recognition (HAR) using tri-axial accelerometers. In combination with powerful modern deep learning techniques like batch normalization and LSTM networks, our model outperforms baseline approaches and establishes state-of-the-art results on WISDM dataset.

Handwritten One-time Password Authentication System Based On Deep Learning (심층 학습 기반의 수기 일회성 암호 인증 시스템)

  • Li, Zhun;Lee, HyeYoung;Lee, Youngjun;Yoon, Sooji;Bae, Byeongil;Choi, Ho-Jin
    • Journal of Internet Computing and Services
    • /
    • v.20 no.1
    • /
    • pp.25-37
    • /
    • 2019
  • Inspired by the rapid development of deep learning and online biometrics-based authentication, we propose a handwritten one-time password authentication system which employs deep learning-based handwriting recognition and writer verification techniques. We design a convolutional neural network to recognize handwritten digits and a Siamese network to compute the similarity between the input handwriting and the genuine user's handwriting. We propose the first application of the second edition of NIST Special Database 19 for a writer verification task. Our system achieves 98.58% accuracy in the handwriting recognition task, and about 93% accuracy in the writer verification task based on four input images. We believe the proposed handwriting-based biometric technique has potential for use in a variety of online authentication services under the FIDO framework.

The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model (합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점)

  • Jae-Sang Han;Hyun-Joo Kim
    • Journal of The Korean Association For Science Education
    • /
    • v.43 no.3
    • /
    • pp.237-251
    • /
    • 2023
  • This study explores the possibility of automated scoring for scientific graph answers by designing an automated scoring model using convolutional neural networks and applying it to students' kinematics graph answers. The researchers prepared 2,200 answers, which were divided into 2,000 training data and 200 validation data. Additionally, 202 student answers were divided into 100 training data and 102 test data. First, in the process of designing an automated scoring model and validating its performance, the automated scoring model was optimized for graph image classification using the answer dataset prepared by the researchers. Next, the automated scoring model was trained using various types of training datasets, and it was used to score the student test dataset. The performance of the automated scoring model has been improved as the amount of training data increased in amount and diversity. Finally, compared to human scoring, the accuracy was 97.06%, the kappa coefficient was 0.957, and the weighted kappa coefficient was 0.968. On the other hand, in the case of answer types that were not included in the training data, the s coring was almos t identical among human s corers however, the automated scoring model performed inaccurately.