• 제목/요약/키워드: 양방향 장단기 기억

검색결과 5건 처리시간 0.019초

Merlin 툴킷을 이용한 한국어 TTS 시스템의 심층 신경망 구조 성능 비교 (Performance comparison of various deep neural network architectures using Merlin toolkit for a Korean TTS system)

  • 홍준영;권철홍
    • 말소리와 음성과학
    • /
    • 제11권2호
    • /
    • pp.57-64
    • /
    • 2019
  • 본 논문에서는 음성 합성을 위한 오픈소스 시스템인 Merlin 툴킷을 이용하여 한국어 TTS 시스템을 구성한다. TTS 시스템에서 HMM 기반의 통계적 음성 합성 방식이 널리 사용되고 있는데, 이 방식에서 문맥 요인을 포함시키는 음향 모델링 구성의 한계로 합성 음성의 품질이 저하된다고 알려져 있다. 본 논문에서는 여러 분야에서 우수한 성능을 보여 주는 심층 신경망 기법을 적용하는 음향 모델링 아키텍처를 제안한다. 이 구조에는 전연결 심층 피드포워드 신경망, 순환 신경망, 게이트 순환 신경망, 단방향 장단기 기억 신경망, 양방향 장단기 기억 신경망 등이 포함되어 있다. 실험 결과, 문맥을 고려하는 시퀀스 모델을 아키텍처에 포함하는 것이 성능 개선에 유리하다는 것을 알 수 있고, 장단기 기억 신경망을 적용한 아키텍처가 가장 좋은 성능을 보여주었다. 그리고 음향 특징 파라미터에 델타와 델타-델타 성분을 포함하는 것이 성능 개선에 유리하다는 결과가 도출되었다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.

GAN 오버샘플링 기법과 CNN-BLSTM 결합 모델을 이용한 부정맥 분류 (Arrhythmia Classification using GAN-based Over-Sampling Method and Combination Model of CNN-BLSTM)

  • 조익성;권혁숭
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1490-1499
    • /
    • 2022
  • 부정맥이란 심장이 불규칙한 리듬이나 비정상적인 심박동수를 갖는 것을 말하며, 뇌졸중, 심정지 등을 유발하거나 사망에도 이를 수 있는 만큼, 조기 진단과 관리가 무엇보다 중요하다. 본 연구에서는 심전도 신호의 QRS 특징 추출에 적합한 CNN과 기존 LSTM의 직전 패턴의 수렴 한계를 해결할 수 있는 BLSTM을 연결한 CNN-BLSTM 결합 모델을 이용한 부정맥 분류 방법을 제안한다. 이를 위해 먼저 전처리 과정을 통해 잡음을 제거한 심전도 신호에서 QRS 특징점을 검출하고 단일 비트 세그먼트를 추출하였다. 이때 데이터의 불균형 문제를 해결하기 위해 GAN 오버샘플링 기법을 적용하였다. 이 후 합성곱 계층을 통해 부정맥 신호의 패턴을 정밀하게 추출하도록 구성하고 이를 BLSTM의 입력으로 사용한 후 매개변수를 학습시키고 검증 데이터로 학습 모델을 평가한 후 부정맥 분류의 정확도를 확인하였다. 제안한 방법의 우수성을 입증하기 위해 MIT-BIH 부정맥 데이터베이스를 이용하여 분류의 정확도, 정밀도, 재현율, F1-score를 비교하였다. 성능평가 결과 각각 99.30%, 98.70%, 97.50%, 98.06%로 우수한 분류율을 나타내는 것을 확인할 수 있었다.

합성데이터를 이용한 비지도학습 기반 실시간 와류진동 탐지모델 (Unsupervised Vortex-induced Vibration Detection Using Data Synthesis)

  • 이선호;김선중
    • 한국전산구조공학회논문집
    • /
    • 제36권5호
    • /
    • pp.315-321
    • /
    • 2023
  • 장대교량은 낮은 고유진동수와 감쇠비를 가지는 초유연구조물로 진동사용성 문제에 취약하다. 하지만 현재 국내 설계지침에서는 풍속이나 진폭에 대한 임계값을 기반으로 유해진동 발생 여부를 평가하고 있다. 본 연구에서는 장대교량에서 발생하는 유해진동을 보다 정교하게 식별하기 위하여 딥러닝 기반 신호분할 모델을 활용한 데이터 포인트 단위의 와류진동 식별 방법론을 제안한다. 특별히 포락선을 가지는 사인파를 활용하여 와류진동에 해당하는 데이터를 합성함으로써 모델 구축에 필수적인 와류진동 데이터 획득 및 라벨링 과정을 대체하였다. 이후 푸리에 싱크로스퀴즈드 변환를 적용하여 시간-주파수 특징을 추출하여 신경망의 인풋 데이터로 사용하였다. 합성데이터만을 이용하여 양방향 장단기 기억신경망(Bidirectional Long-Short-Term-Memory) 모델을 훈련하였고 이를 라벨 정보를 포함한 실제 사장교의 계측데이터를 이용하여 학습한 모델과 비교하여 모델의 실시간 와류진동 식별 성능을 검증하였다.

Applying a Novel Neuroscience Mining (NSM) Method to fNIRS Dataset for Predicting the Business Problem Solving Creativity: Emphasis on Combining CNN, BiLSTM, and Attention Network

  • Kim, Kyu Sung;Kim, Min Gyeong;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.1-7
    • /
    • 2022
  • 인공지능 기술이 발달하면서 뉴로사이언스 마이닝(NSM: NeuroScience Mining)과 AI를 접목하려는 시도가 증가하고 있다. 나아가 NSM은 뉴로사이언스와 비즈니스 애널리틱스의 결합으로 인해 연구범위가 확장되고 있다. 본 연구에서는 fNIRS 실험을 통해 확보한 뉴로 데이터를 분석하여 비즈니스 문제 해결 창의성(BPSC: business problem-solving creativity)을 예측하고 이를 통해 NSM의 잠재력을 조사한다. BPSC는 비즈니스에서 차별성을 가지게 하는 중요한 요소이지만, 인지적 자원의 하나인 BPSC의 측정 및 예측에는 한계가 존재한다. 본 논문에서는 BPSC 예측 성능을 높이는 방안으로 CNN, BiLSTM 그리고 어텐션 네트워크를 결합한 새로운 NSM 기법을 제안한다. 제안된 NSM 기법을 15만 개 이상의 fNIRS 데이터를 활용하여 유효성을 입증하였다. 연구 결과, 본 논문에서 제안하는 NSM 방법이 벤치마킹한 알고리즘(CNN, BiLSTM)에 비하여 우수한 성능을 가지는 것으로 나타났다.