• 제목/요약/키워드: Speech recognition model

검색결과 618건 처리시간 0.024초

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

내장형 음성 인식 시스템을 위한 심층 신경망 최적화 방법 (Deep Neural Network Optimization for Embedded Speech Recognition)

  • 정훈;최우용;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-233
    • /
    • 2015
  • 본 논문에서는 심층 신경망 기반의 내장형 음성 인식 시스템에서 음성 인식 속도를 개선하기 위한 최적화 방법에 대해 논한다. 심층 신경망 기반의 음성 인식은 기존의 Gaussian Mixture Model (GMM) 기반에 비해 좋은 인식 성능을 보이지만 높은 연산량으로 인해 리소스가 제약된 내장형 단말기에 적용하기에는 어려움이 따른다. 따라서, 본 연구에서는 심층 신경망의 계산량 문제를 해결하고자 ARM 코어에 내장된 병렬 명령어를 사용한 최적화 기법과 특이값 분해를 통해 심층 신경망 매트릭스 연산량 감소 방안에 대해 제안한다.

  • PDF

A Review of Deep Learning Research

  • Mu, Ruihui;Zeng, Xiaoqin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.1738-1764
    • /
    • 2019
  • With the advent of big data, deep learning technology has become an important research direction in the field of machine learning, which has been widely applied in the image processing, natural language processing, speech recognition and online advertising and so on. This paper introduces deep learning techniques from various aspects, including common models of deep learning and their optimization methods, commonly used open source frameworks, existing problems and future research directions. Firstly, we introduce the applications of deep learning; Secondly, we introduce several common models of deep learning and optimization methods; Thirdly, we describe several common frameworks and platforms of deep learning; Finally, we introduce the latest acceleration technology of deep learning and highlight the future work of deep learning.

CNN - LSTM 모델 기반 음성 감정인식 (Speech emotion recognition based on CNN - LSTM Model)

  • 윤상혁;전다윤;박능수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.939-941
    • /
    • 2021
  • 사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응 (Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments)

  • 김영국;송화전;김형순
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.566-571
    • /
    • 2009
  • 본 논문에서는 eigenvoice 방식에 기반하여 다양한 잡음 환경에 강인한 고속 화자 적응 방법을 제안하였다. 제안된 방법은 잡음 제거 기술과 환경 군집화 방법을 기반으로 한다. 그러나, 잡음 제거 기술을 통해 잡음을 제거한 후에도 여전히 잔여 잡음이 존재하므로 비음성 구간의 켑스트럼 평균을 사용하여 잡음 환경별로 화자 적응 데이터를 분류한 후 각각의 환경별로 환경 모델을 구성한다. 이러한 환경 군집화를 적응데이터에 대해 구성한 후 테스트 음성이 입력되면 군집화된 모델 중에서 인식 데이터와 가장 유사한 복수의 환경별 군집화된 화자 적응 모델을 구한 후 이들의 가중함을 통해 화자 적응을 수행하는 방법이다. 제안된 방법은 적응 및 평가를 통해 화자 독립 모델을 사용한 경우에 비해 $40{\sim}59%$ 인식 오류 감소율을 얻었다.

119 응급신고에서 수보요원과 신고자의 통화분석을 활용한 머신 러닝 기반의 심정지 탐지 모델 (Machine-learning-based out-of-hospital cardiac arrest (OHCA) detection in emergency calls using speech recognition)

  • 김종인;이주영;정지오;신대진;최동현;김기홍;홍기정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.109-118
    • /
    • 2023
  • 심정지는 초기 대응에 따라 생존율과 예후에 영향을 미치는 중요한 응급 상황이다. 특히 병원밖심정지(out-of-hospital cardiac arrest, OHCA)의 경우, 119 구조대의 초기 조치가 심정지 환자의 생존율을 높이는 데 결정적인 역할을 한다. 그러나 국내에서는 수보요원의 수가 제한적이지만 다량의 신고 전화에 응대해야 하는 현실이다. 이런 상황에서 머신러닝 기반의 OHCA 탐지 프로그램은 수보요원의 보조 역할로 심정지 환자의 생존률을 높일 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해 머신러닝 기반의 심정지(OHCA) 탐지 프로그램을 개발하였다. 이 프로그램은 수보요원과 신고자의 통화 녹취록을 분석하여 심정지 여부를 판단한다. 제안한 모델은 수보요원 및 신고자와의 통화를 자동으로 전사하는 모델, 텍스트 기반의 심정지 탐지 모델, 그리고 프로그램 개발을 위한 서버와 클라이언트로 구성되어 있다. 실험 결과, 본 연구에서 제안한 모델은 F1 점수 기준으로 79.49%의 성능을 보였으며, 수보요원과 비교하여 심정지 감지 시간을 15초 단축하였다. 이 연구는 소규모 데이터셋을 사용하였음에도 불구하고, 심정지 기반의 탐지 프로그램이 수보요원의 보조 역할로 심정지 생존률에 기여할 수 있음을 입증하였다.

IoT 기반 스마트 냉장고 시스템 (A Smart Refrigerator System based on Internet of Things)

  • 김한진;이승기;김원태
    • 전기전자학회논문지
    • /
    • 제22권1호
    • /
    • pp.156-161
    • /
    • 2018
  • 최근 인구가 급격히 증가하면서 음식물의 부족 및 낭비의 심각성이 대두되고 있다. 이를 해결하기 위해 다양한 국가 및 기업에서는 소비자의 식재료 구매 패턴 연구 및 IoT 기술이 적용된 스마트 냉장고 제품개발 등의 시도를 진행 중에 있다. 그러나, 현재 판매되고 있는 스마트 냉장고들은 기존에 비해 상당한 가격대를 형성하고 있으며, 복잡한 구성으로 인한 오작동 및 파손으로 또 다른 낭비를 초래한다. 본 논문에서는 음식물 부족 및 낭비 해결과 가정 내 원활한 식재료 관리를 위한 저비용의 IoT 기반 스마트 냉장고 시스템을 제안한다. 본 시스템은 QR코드, 이미지 인식, 음성 인식을 통해 식재료를 인식하여 등록하고 이를 바탕으로 다양한 서비스를 제공할 수 있다. 이미지 인식의 정확도를 높이기 위해 우리는 딥 러닝 알고리즘을 사용한 모델을 활용하였으며 정확한 식재료 등록이 가능함을 검증하였다.

재실자 활동량 산출을 위한 딥러닝 기반 선행연구 동향 (Research Trends for the Deep Learning-based Metabolic Rate Calculation)

  • 박보랑;최은지;이효은;김태원;문진우
    • KIEAE Journal
    • /
    • 제17권5호
    • /
    • pp.95-100
    • /
    • 2017
  • Purpose: The purpose of this study is to investigate the prior art based on deep learning to objectively calculate the metabolic rate which is the subjective factor for the PMV optimum control and to make a plan for future research based on this study. Methods: For this purpose, the theoretical and technical review and applicability analysis were conducted through various documents and data both in domestic and foreign. Results: As a result of the prior art research, the machine learning model of artificial neural network and deep learning has been used in various fields such as speech recognition, scene recognition, and image restoration. As a representative case, OpenCV Background Subtraction is a technique to separate backgrounds from objects or people. PASCAL VOC and ILSVRC are surveyed as representative technologies that can recognize people, objects, and backgrounds. Based on the results of previous researches on deep learning based on metabolic rate for occupational metabolic rate, it was found out that basic technology applicable to occupational metabolic rate calculation technology to be developed in future researches. It is considered that the study on the development of the activity quantity calculation model with high accuracy will be done.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.

이미지 분석과 딥 러닝을 통한 영유아 위험물 탐지 (Detection of Dangerous Things to Infants through Image Analysis and Deep Learning)

  • 김휘준;박길섭;서영학;김경섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.845-848
    • /
    • 2017
  • 본 논문은 이미지 탐지 모델인 Faster R-CNN을 통해 영유아가 존재하는 어린이 집, 공원, 놀이터, 거실 등의 2D 이미지를 읽어 영유아에게 위험이 되는 요소를 인식해 위험상황을 감지하는 시스템을 구현하였다. 실생활에서 쉽게 구할 수 있는 데이터를 바탕으로 탐지 모델을 구현 했으며 현재 머신 러닝 분야가 음성인식과 행위데이터를 기반으로 상용화 되어 있는 반면 본 모델은 이미지를 데이터로 한 탐지 모델이 다양한 서비스 분야에서 활용 될 수 있음을 보여준다.