• 제목/요약/키워드: rnn

검색결과 468건 처리시간 0.029초

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구 (CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm)

  • 홍윤석;기경서;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.115-122
    • /
    • 2019
  • 지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN) 계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

딥러닝 기반 비디오 캡셔닝의 연구동향 분석 (Analysis of Research Trends in Deep Learning-Based Video Captioning)

  • 려치;이은주;김영수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제13권1호
    • /
    • pp.35-49
    • /
    • 2024
  • 컴퓨터 비전과 자연어 처리의 융합의 중요한 결과로서 비디오 캡셔닝은 인공지능 분야의 핵심 연구 방향이다. 이 기술은 비디오 콘텐츠의 자동이해와 언어 표현을 가능하게 함으로써, 컴퓨터가 비디오의 시각적 정보를 텍스트 형태로 변환한다. 본 논문에서는 딥러닝 기반 비디오 캡셔닝의 연구 동향을 초기 분석하여 CNN-RNN 기반 모델, RNN-RNN 기반 모델, Multimodal 기반 모델, 그리고 Transformer 기반 모델이라는 네 가지 주요 범주로 나누어 각각의 비디오 캡셔닝 모델의 개념과 특징 그리고 장단점을 논하였다. 그리고 이 논문은 비디오 캡셔닝 분야에서 일반적으로 자주 사용되는 데이터 집합과 성능 평가방안을 나열하였다. 데이터 세트는 다양한 도메인과 시나리오를 포괄하여 비디오 캡션 모델의 훈련 및 검증을 위한 광범위한 리소스를 제공한다. 모델 성능 평가방안에서는 주요한 평가 지표를 언급하며, 모델의 성능을 다양한 각도에서 평가할 수 있도록 연구자들에게 실질적인 참조를 제공한다. 마지막으로 비디오 캡셔닝에 대한 향후 연구과제로서 실제 응용 프로그램에서의 복잡성을 증가시키는 시간 일관성 유지 및 동적 장면의 정확한 서술과 같이 지속해서 개선해야 할 주요 도전과제와 시간 관계 모델링 및 다중 모달 데이터 통합과 같이 새롭게 연구되어야 하는 과제를 제시하였다.

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약 (End-to-end Document Summarization using Copy Mechanism and Input Feeding)

  • 최경호;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.56-61
    • /
    • 2016
  • 본 논문에서는 Sequence-to-sequence 모델을 생성요약의 방법으로 한국어 문서요약에 적용하였으며, copy mechanism과 input feeding을 적용한 RNN search 모델을 사용하여 시스템의 성능을 높였다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, input feeding과 copy mechanism을 포함한 모델이 형태소 기준으로 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

  • PDF

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

완전궤환 신경망을 이용한 무제약 서체 숫자 인식 (Recognition of Unconstrained Handwritten Numerals using Fully-connected RNN)

  • 원상철;배수정;최한고
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.1007-1010
    • /
    • 1999
  • This paper describes the recognition of totally unconstrained handwritten numerals using neural networks. Neural networks with multiple output nodes have been successfully used to classify complex handwritten numerals. The recognition system consists of the preprocessing stage to extract features using Kirsch mask and the classification stage to recognize the numerals using the fully-connected recurrent neural networks (RNN). Simulation results with the numeral database of Concordia university, Montreal, Canada, are presented. The recognition system proposed in this paper outperforms other recognition systems reported on the same database.

  • PDF

순환신경망 기반 저가형 뇌파 분류기 연구 (A Study on RNN-based low-cost EEG Classifier)

  • 김현돈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.468-470
    • /
    • 2024
  • 고령으로 거동이 불편하거나 목 아래 전신 마비 또는 와병 환자를 위하여 저가형 단 채널 뇌파(EEG) 측정기를 사용하여 환자의 흥분이나 불안정 상태를 인식할 수 있는 순환신경망(RNN) 기반 뇌파 인식기 모델을 제안하였다. 제한된 환경에서 GRU(Gate Recurrent Unit) 신경망을 사용한 뇌파 인식기는 <정상/안정>은 인식률 100%, <흥분/불안정>은 90%의 인식률을 보였다. 또한, 자체 개발한 생체신호 기반 호출 시스템과 연동하여 구현함으로써 적용 가능성을 검증하였다.

RNN-GAN을 이용한 코드 기반의 단계적 트로트 음악 생성 기법 (Chord-based stepwise Korean Trot music generation technique using RNN-GAN)

  • 황서림;박영철
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.622-628
    • /
    • 2020
  • 본 논문은 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 적대적 생성 신경망(Generative Adversarial Network, GAN) 모델을 사용하여 자동으로 트로트 음악을 생성하는 음악생성 기법을 제안한다. 제안된 방법은 음악의 뼈대를 담당하는 코드를 만들고, 만들어진 코드 열을 기반으로 멜로디와 베이스(bass)를 단계적으로 생성한 뒤, 해당 코드에 붙임으로써 구조화된 음악을 완성하는 방법을 사용한다. 또한 인트로나 벌스, 코러스 등과 같이 일정 구간으로 나뉘어 구조가 반복되는 트로트 가요의 특징을 적용하여 벌스의 코드 진행으로부터 새로운 코러스 코드 진행을 만들어내고, 다시 해당 코드로부터 멜로디와 베이스를 단계적으로 생성하여 초기에 만들어진 트로트의 길이를 확장한다. 주관적 평가와 객관적 평가방법을 사용하여 생성된 음악의 품질을 측정하였으며, 기존의 트로트가 갖고 있는 음악적 특성과 유사한 음악을 생성함으로 확인하였다.

워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구 (Class Language Model based on Word Embedding and POS Tagging)

  • 정의석;박전규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.315-319
    • /
    • 2016
  • 음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드 임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다.

Recurrent Neural Networks를 활용한 Baltic Dry Index (BDI) 예측 (Time-Series Prediction of Baltic Dry Index (BDI) Using an Application of Recurrent Neural Networks)

  • 한민수;유성진
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2017년도 추계학술대회
    • /
    • pp.50-53
    • /
    • 2017
  • 장기 해운불황에 따라 불확실성이 증폭되고 있는 상황에서 경기추세의 이해뿐만 아니라 예측 또한 중요해지고 있는 실정이다. 본 논문에서는 최근 특정 복잡한 문제에 대해서 각광받고 있는 인공신경망을 적용하여 BDI 예측을 연구하였다. 사용된 인공신경망은 순환신경망으로 RNN과 LSTM 그리고 비교의 목적으로 MLP를 통해 2009.04.01.부터 2017.07.31.의 기간을 대상으로 연구를 진행하였다. 또한 전통적 시계열 예측방법론인 ARIMA 분석을 실시해 인공신경망들의 예측성능과 비교하였다. 결과로 순환신경망인 RNN의 성능이 가장 뛰어났으며 LSTM의 특정 시계열(BDI)에의 적용가능성을 확인할 수 있었다.

  • PDF