• 제목/요약/키워드: 콘볼루션 신경망

검색결과 15건 처리시간 0.021초

약지도 음향 이벤트 검출을 위한 파형 기반의 종단간 심층 콘볼루션 신경망에 대한 연구 (A study on the waveform-based end-to-end deep convolutional neural network for weakly supervised sound event detection)

  • 이석진;김민한;정영호
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.24-31
    • /
    • 2020
  • 본 논문에서는 음향 이벤트 검출을 위한 심층 신경망에 대한 연구를 진행하였다. 특히 약하게 표기된 데이터 및 표기되지 않은 훈련 데이터를 포함하는 약지도 문제에 대하여, 입력 오디오 파형으로부터 이벤트 검출 결과를 얻어내는 종단간 신경망을 구축하는 연구를 진행하였다. 본 연구에서 제안하는 시스템은 1차원 콘볼루션 신경망을 깊게 적층하는 구조를 기반으로 하였으며, 도약 연결 및 게이팅 메커니즘 등의 추가적인 구조를 통해 성능을 개선하였다. 또한 음향 구간 검출 및 후처리를 통하여 성능을 향상시켰으며, 약지도 데이터를 다루기 위하여 평균-교사 모델을 적용하여 학습하는 과정을 도입하였다. 본 연구에서 고안된 시스템을 Detection and Classification of Acoustic Scenes and Events(DCASE) 2019 Task 4 데이터를 이용하여 평가하였으며, 그 결과 약 54 %의 구간-기반 F1-score 및 32%의 이벤트-기반 F1-score를 얻을 수 있었다.

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

딥러닝를 사용한 온라인 게임에서의 욕설 탐지 (Abusive Sentence Detection using Deep Learning in Online Game)

  • 박성희;김휘강;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.13-14
    • /
    • 2019
  • 욕설은 게임 내 가장 큰 불쾌 요소 중 하나이다. 지금까지 게임 사용자들의 욕설을 방지하기 위해서 금칙어를 기반으로 필터링 해왔으나, 한국어 특성상 단어를 변형하거나 중간에 숫자를 넣는 등 우회할 방법이 다양하기 때문에 효과적이지 않다. 따라서 본 논문에서는 실제 온라인 게임 'Archeage'에서 수집된 채팅 데이터를 기반으로 딥러닝 기법 중 하나인 콘볼루션 신경망을 사용하여 욕설을 탐지하는 모델을 구축하였다. 한글의 자음, 모음을 분리하여 실험하였을 때, 87%라는 정확도를 얻었다. 한 글자씩 분리한 경우, 조금 더 좋은 정확도를 얻었으나, 사전의 수가 자소를 분리한 경우보다 10배 이상 늘어난 것을 고려해보면 자소를 분리한 것이 더 효율적이다.

  • PDF

GPU 를 이용한 콘볼루션 뉴럴 네트워크 기반 초해상화 설계 및 구현 (Accelerating Deep learning based Super resolution algorithm using GPU)

  • 기세환;최재석;김수예;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.190-191
    • /
    • 2017
  • 본 논문에서는 딥 콘볼루션 신경망 구조를 사용하여 학습된 초해상화 알고리즘을 GPU 프로그래밍을 통해 실시간 동작이 가능하도록 하는 방법을 제시하였다. 딥 러닝이 많이 대중화 되면서 많은 영상처리 알고리즘이 딥러닝을 기반으로 연구가 되었다. 하지만 계산 량이 많이 필요로 하는 딥 러닝 기반 알고리즘은 UHD 이상의 고해상도 영상처리에는 실시간 처리가 어려웠다. 이런 문제를 해결하기 위해서 고속 병렬 처리가 가능한 GPU 를 사용해서 2K 입력영상을 4K 출력 영상으로 확대하는 딥 초해상화 알고리즘을 30 fps 이상의 처리 속도로 동작이 가능하도록 구현을 하였다.

  • PDF

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

저연산량의 효율적인 콘볼루션 신경망 (Efficient Convolutional Neural Network with low Complexity)

  • 이찬호;이중경;호콩안
    • 전기전자학회논문지
    • /
    • 제24권3호
    • /
    • pp.685-690
    • /
    • 2020
  • 휴대용 기기나 에지 단말을 위한 CNN인 MobileNet V2를 기반으로 연산량을 크게 줄이면서도 정확도는 증가시킨 효율적인 인공신경망 네트워크 구조를 제안한다. 제안하는 구조는 Bottleneck 층 구조를 유지하면서 확장 계수를 증가시키고 일부 층을 제거하는 등의 변화를 통해 연산량을 절반 이하로 줄였다. 설계한 네트워크는 ImageNet100 데이터셋을 이용하여 분류 정확도와 CPU 및 GPU에서의 연산 시간을 측정하여 그 성능을 검증 하였다. 또한, 현재 딥러닝 가속기로 널리 이용하는 GPU에서 네트워크 구조에 따라 동작 성능이 달라짐도 보였다.

공분산과 모듈로그램을 이용한 콘볼루션 신경망 기반 양서류 울음소리 구별 (Convolutional neural network based amphibian sound classification using covariance and modulogram)

  • 고경득;박상욱;고한석
    • 한국음향학회지
    • /
    • 제37권1호
    • /
    • pp.60-65
    • /
    • 2018
  • 본 논문에서는 양서류 울음소리 구별을 CNN(Convolutional Neural Network)에 적용하기 위한 방법으로 공분산 행렬과 모듈로그램(modulogram)을 제안한다. 먼저, 멸종 위기 종을 포함한 양서류 9종의 울음소리를 자연 환경에서 추출하여 데이터베이스를 구축했다. 구축된 데이터를 CNN에 적용하기 위해서는 길이가 다른 음향신호를 정형화하는 과정이 필요하다. 음향신호를 정형화하기 위해서 분포에 대한 정보를 나타내는 공분산 행렬과 시간에 대한 변화를 내포하는 모듈로그램을 추출하여, CNN의 입력으로 사용했다. CNN은 convolutional layer와 fully-connected layer의 수를 변경해 가며 실험하였다. 추가적으로, CNN의 성능을 비교하기 위해 기존에 음향 신호 분석에서 쓰이는 알고리즘과 비교해보았다. 그 결과, convolutional layer가 fully-connected layer보다 성능에 큰 영향을 끼치는 것을 확인했다. 또한 CNN을 사용하였을 때 99.07 % 인식률로, 기존에 음향분석에 쓰이는 알고리즘 보다 높은 성능을 보인 것을 확인했다.

초협대역 비디오 전송을 위한 심층 신경망 기반 초해상화를 이용한 스케일러블 비디오 코딩 (Scalable Video Coding using Super-Resolution based on Convolutional Neural Networks for Video Transmission over Very Narrow-Bandwidth Networks)

  • 김대은;기세환;김문철;전기남;백승호;김동현;최증원
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.132-141
    • /
    • 2019
  • 매우 제한된 전송 대역을 이용하여 비디오 데이터를 전송해야 하는 필요성은, 광대역을 통한 비디오 서비스가 활성화되어 있는 현 시점에서도 꾸준히 존재한다. 본 논문에서는 초협대역 네트워크를 통한 저해상도 비디오 전송을 위해, 공간 확장형 스케일러블 비디오 코딩 프레임워크에서 기본 계층의 부호화된 프레임을 심층 신경망 기반 초해상화 기법을 이용하여 업스케일링 하여 향상 계층 부호화 시에 예측 영상으로 활용하여 부호화 효율을 높이는 방법을 제안한다. 기존의 스케일러블 HEVC (High efficiency video coding) 표준에서는 고정된 필터로 업스케일링을 하는데 비해, 본 논문에서는 초해상화 수행을 위해 학습된 심층신경망을 기존의 고정 업스케일링 필터를 대체하여 적용하는 스케일러블 비디오 코딩 프레임워크를 제안한다. 이를 위해 스킵 연결과 잔차 학습 기법 등이 적용된 심층 콘볼루션 신경망 구조를 제안하고, 비디오 코딩 프레임워크의 실제 응용 상황에 맞추어 학습시켰다. 입력 해상도가 $352{\times}288$이고 프레임율이 8fps인 영상을 110kbps로 부호화 하는 응용 상황에서, 기존의 스케일러블 HEVC 프레임워크에 비해 제안하는 스케일러블 비디오 코딩 프레임워크의 화질이 더 높고 부호화 효율이 우수함을 확인할 수 있었다.

다중 편광 SAR 영상 목표물 인식을 위한 딥 컨볼루션 뉴럴 네트워크 (Convolutional neural network for multi polarization SAR recognition)

  • 염광영;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.102-104
    • /
    • 2017
  • 최근 Convolutional neural network (CNN)을 도입하여, SAR 영상의 목표물 인식 알고리즘이 높은 성능을 보여주었다. SAR 영상은 4 종류의 polarization 정보로 구성되어있다. 기계와 신호처리의 비용으로 인하여 일부 데이터는 적은 수의 polarization 정보를 가지고 있다. 따라서 우리는 SAR 영상 data 를 멀티모달 데이터로 해석하였다. 그리고 우리는 이러한 멀티모달 데이터에 잘 작동할 수 있는 콘볼루션 신경망을 제안하였다. 우리는 데이터가 포함하는 모달의 수에 반비례 하도록 scale factor 구성하고 이를 입력 크기조절에 사용하였다. 입력의 크기를 조절하여, 네트워크는 특징맵의 크기를 모달의 수와 상관없이 일정하게 유지할 수 있었다. 또한 제안하는 입력 크기조절 방법은 네트워크의 dead filter 의 수를 감소 시켰고, 이는 네트워크가 자신의 capacity 를 잘 활용한다는 것을 의미한다. 또 제안된 네트워크는 특징맵을 구성할 때 다양한 모달을 활용하였고, 이는 네트워크가 모달간의 상관관계를 학습했다는 것을 의미한다. 그 결과, 제안된 네트워크의 성능은 입력 크기조절이 없는 일반적인 네트워크보다 높은 성능을 보여주었다. 또한 우리는 전이학습의 개념을 이용하여 네트워크를 모달의 수가 많은 데이터부터 차례대로 학습시켰다. 전이학습을 통하여 네트워크가 학습되었을 때, 제안된 네트워크는 특정 모달의 조합 경우만을 위해 학습된 네트워크보다 높은 성능을 보여준다.

  • PDF

펄스 내 변조 저피탐 레이더 신호 자동 식별 (Automatic Intrapulse Modulated LPI Radar Waveform Identification)

  • 김민준;공승현
    • 한국군사과학기술학회지
    • /
    • 제21권2호
    • /
    • pp.133-140
    • /
    • 2018
  • In electronic warfare(EW), low probability of intercept(LPI) radar signal is a survival technique. Accordingly, identification techniques of the LPI radar waveform have became significant recently. In this paper, classification and extracting parameters techniques for 7 intrapulse modulated radar signals are introduced. We propose a technique of classifying intrapulse modulated radar signals using Convolutional Neural Network(CNN). The time-frequency image(TFI) obtained from Choi-William Distribution(CWD) is used as the input of CNN without extracting the extra feature of each intrapulse modulated radar signals. In addition a method to extract the intrapulse radar modulation parameters using binary image processing is introduced. We demonstrate the performance of the proposed intrapulse radar waveform identification system. Simulation results show that the classification system achieves a overall correct classification success rate of 90 % or better at SNR = -6 dB and the parameter extraction system has an overall error of less than 10 % at SNR of less than -4 dB.