• 제목/요약/키워드: Speech recognition model

검색결과 618건 처리시간 0.023초

Locating the damaged storey of a building using distance measures of low-order AR models

  • Xing, Zhenhua;Mita, Akira
    • Smart Structures and Systems
    • /
    • 제6권9호
    • /
    • pp.991-1005
    • /
    • 2010
  • The key to detecting damage to civil engineering structures is to find an effective damage indicator. The damage indicator should promptly reveal the location of the damage and accurately identify the state of the structure. We propose to use the distance measures of low-order AR models as a novel damage indicator. The AR model has been applied to parameterize dynamical responses, typically the acceleration response. The premise of this approach is that the distance between the models, fitting the dynamical responses from damaged and undamaged structures, may be correlated with the information about the damage, including its location and severity. Distance measures have been widely used in speech recognition. However, they have rarely been applied to civil engineering structures. This research attempts to improve on the distance measures that have been studied so far. The effect of varying the data length, number of parameters, and other factors was carefully studied.

최대 엔트로피 모델을 이용한 연속음성인식에서의 인식 신뢰도 측정 (CONFIDENCE MEAUSRING METHOD FOR CONTIUOUS SPEECH RECOGNITION USING MAXIMUM ENTROPY MODEL)

  • 정상근;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.200-204
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로. 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는, 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

퍼지추론에 의한 지능형 음성지시 조타기 제어 시스템의 구축 (Building of an Intelligent Ship's Steering Control System Based on Voice Instruction Gear Using Fuzzy Inference)

  • 서기열;박계각
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1809-1815
    • /
    • 2003
  • 최근 선박 운항의 고효율화 및 안전성 확보를 위하여 지능형 선박 시스템에 관한 연구가 활발하게 진행되고 있다. 전문가의 지식과 경험 정보가 데이터베이스로 구축된 전문가 시스템의 지식 정보를 이용하여 안전하고 효율적인 선박 운항이 가능한 항해 지원 시스템에 관한 연구도 활발하다. 따라서, 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로 퍼지 추론과 휴먼 인터페이스의 하나인 음성 인식 기술을 적용하여 선박 운항자의 부담 경감 및 인원 절감 등의 효과를 가져 올 수 있는 지능형 선박 조종 시스템을 구축한다. 구체적인 연구방법으로는 먼저, 음성 인식 기술과 지능형 학습 기법을 기반으로 음성 지시 기반 학습 시스템을 구현하고, 다음으로 퍼지 추론에 의한 조타수 조작 모델을 구성하여 PC기반 원격 제어 시스템을 구축하였다. 마지막으로 구현된 음성 지시 조타 제어 시스템을 모형 선박 시스템에 적용하여 그 효용성을 확인하였다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF

화자확인에서 특징벡터의 순시 정보와 선형 변환의 효과적인 적용 (Effective Combination of Temporal Information and Linear Transformation of Feature Vector in Speaker Verification)

  • 서창우;조미화;임영환;전성채
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.127-132
    • /
    • 2009
  • The feature vectors which are used in conventional speaker recognition (SR) systems may have many correlations between their neighbors. To improve the performance of the SR, many researchers adopted linear transformation method like principal component analysis (PCA). In general, the linear transformation of the feature vectors is based on concatenated form of the static features and their dynamic features. However, the linear transformation which based on both the static features and their dynamic features is more complex than that based on the static features alone due to the high order of the features. To overcome these problems, we propose an efficient method that applies linear transformation and temporal information of the features to reduce complexity and improve the performance in speaker verification (SV). The proposed method first performs a linear transformation by PCA coefficients. The delta parameters for temporal information are then obtained from the transformed features. The proposed method only requires 1/4 in the size of the covariance matrix compared with adding the static and their dynamic features for PCA coefficients. Also, the delta parameters are extracted from the linearly transformed features after the reduction of dimension in the static features. Compared with the PCA and conventional methods in terms of equal error rate (EER) in SV, the proposed method shows better performance while requiring less storage space and complexity.

  • PDF

분절 특징 은닉 마코프 모델에서의 경향 공유에 관한 연구 (A Study on Trend Sharing in Segmental-feature HMM)

  • 윤영선
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.641-647
    • /
    • 2002
  • 본 논문에서는 경향 양자화 기법을 적용하여 분절 특징 은닉 마코프 모델 (HMM: hidden Markov model)의 매개 변수 수를 줄이는 방법을 제안한다. 제안된 방법은 분절 특징 HMM에서 사용하는 분절 특징, 즉 모수적 궤적을 위치 정보와 경향 정보로 분리한 후, 분리된 경향 정보를 경향 코드북을 이용하여 공유한다. 분절 특징에서 위치 정보는 특징의 기준 점을 나타내고, 경향 정보는 분절 특징의 변이를 의미하며 특징의 많은 부분을 차지하고 있다. 따라서 경향 정보가 공유될 수 있다면 분절 특징 HMM의 매개 변수 수를 줄일 수 있을 것이다. 실험 결과 제안된 방식이 기존의 시스템과 비슷한 성능을 보였으며 매개 변수 수를 줄이는 방안으로 고려될 수 있음을 보였다.

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

자율차량 안전을 위한 긴급상황 알림 및 운전자 반응 확인 시스템 설계 (A Design of the Emergency-notification and Driver-response Confirmation System(EDCS) for an autonomous vehicle safety)

  • 손수락;정이나
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.134-139
    • /
    • 2021
  • 현재 자율주행차량 시장은 3레벨 자율주행차량을 상용화하고 있으나, 여전히 운전자의 주의를 필요로 한다. 3레벨 자율주행 이후 4레벨 자율주행차량에서 가장 주목되는 부분은 차량의 안정성이다. 3레벨과 다르게 4레벨 이후의 자율주행차량은 운전자의 부주의까지 포함하여 자율주행을 실시해야 하기 때문이다. 따라서 본 논문에서는 운전자가 부주의한 상황에서 긴급상황을 알리고 운전자의 반응을 인식하는 자율차량 안전을 위한 긴급상황 알림 및 운전자 반응 확인 시스템을 제안한다. 긴급상황 알림 및 운전자 반응 확인 시스템은 긴급상황 전달 모듈을 사용하여 긴급상황을 텍스트화하여 운전자에게 음성으로 전달하며 운전자 반응 확인 모듈을 사용하여 긴급상황에 대한 운전자의 반응을 인식하고 운전 권한을 운전자에게 넘길지 결정한다. 실험 결과, 긴급상황 전달 모듈의 HMM은 RNN보다 25%, LSTM보다 42.86% 빠른 속도로 음성을 학습했다. 운전자 반응 확인 모듈의 Tacotron2는 deep voice보다 약 20ms, deep mind 보다 약 50ms 더 빨리 텍스트를 음성으로 변환했다. 따라서 긴급상황 알림 및 운전자 반응 확인 시스템은 효율적으로 신경망 모델을 학습시키고, 실시간으로 운전자의 반응을 확인할 수 있다.

신경망 학습에서 프라이버시 이슈 및 대응방법 분석 (Analysis of privacy issues and countermeasures in neural network learning)

  • 홍은주;이수진;홍도원;서창호
    • 디지털융복합연구
    • /
    • 제17권7호
    • /
    • pp.285-292
    • /
    • 2019
  • PC, SNS, IoT의 대중화로 수많은 데이터가 생성되고 그 양은 기하급수적으로 증가하고 있다. 거대한 양의 데이터를 활용하는 방법으로 인공신경망 학습은 최근 많은 분야에서 주목받는 주제이다. 인공신경망 학습은 음성인식, 이미지 인식에서 엄청난 잠재력을 보였으며 더 나아가 의료진단, 인공지능 게임 및 얼굴인식 등 다양하고 복잡한 곳에 광범위하게 적용된다. 인공신경망의 결과는 실제 인간을 능가할 정도로 정확성을 보이고 있다. 이러한 많은 이점에도 불구하고 인공신경망 학습에는 여전히 프라이버시 문제가 존재한다. 인공신경망 학습을 위한 학습 데이터에는 개인의 민감한 정보를 포함한 다양한 정보가 포함되어 악의적인 공격자로 인해 프라이버시가 노출될 수 있다. 공격자가 학습하는 도중 개입하여 학습이 저하되거나 학습이 완료된 모델을 공격할 때 발생하는 프라이버시 위험이 있다. 본 논문에서는 최근 제안된 신경망 모델의 공격 기법과 그에 따른 프라이버시 보호 방법을 분석한다.