• 제목/요약/키워드: Acoustic Feature

검색결과 237건 처리시간 0.025초

음성 특성 지표를 이용한 음성 인식 성능 예측 (Speech Recognition Accuracy Prediction Using Speech Quality Measure)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.471-476
    • /
    • 2016
  • 본 논문에서는 음성 특성 지표를 이용한 음성 인식 성능 예측 실험의 내용을 소개한다. 선행 실험에서 효과적인 음성 인식 성능 예측을 위해 대표적인 음성 인식 성능 지표인 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 조합하여 새로운 성능 지표를 제안하였다. 제안한 지표는 각 음성 특성 지표를 단독으로 사용할 때 보다 단어 오인식률과 높은 상관도를 나타내 음성 인식 성능을 예측하는데 효과적임을 보였다. 본 실험에서는 이 결과를 근거하여 조합에 사용된 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반의 음성 인식 성능 예측기를 구축한다. 가우시안 요소를 증가시키며 실험한 결과 제안된 시스템은 babble 잡음, 자동차 잡음에서 모두 SNR이 낮을수록 단어 오인식률을 높은 확률로 예측함을 확인하였다.

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.

Acoustic Metal Impact Signal Processing with Fuzzy Logic for the Monitoring of Loose Parts in Nuclear Power Plang

  • Oh, Yong-Gyun;Park, Su-Young;Rhee, Ill-Keun;Hong, Hyeong-Pyo;Han, Sang-Joon;Choi, Chan-Duk;Chun, Chong-Son
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권1E호
    • /
    • pp.5-19
    • /
    • 1996
  • This paper proposes a loose part monitoring system (LPMS) design with a signal processing method based on fuzzy logic. Considering fuzzy characteristics of metallic impact waveform due to not only interferences from various types of noises in an operating nuclear power plant but also complex wave propagation paths within a monitored mechanical structure, the proposed LPMS design incorporates the comprehensive relation among impact signal features in the fuzzy rule bases for the purposes of alarm discrimination and impact diagnosis improvement. The impact signal features for the fuzzy rule bases include the rising time, the falling time, and the peak voltage values of the impact signal envelopes. Fuzzy inference results based on the fuzzy membership values of these impact signal features determine the confidence level data for each signal feature. The total integrated confidence level data is used for alarm discrimination and impact diagnosis purposes. Through the perpormance test of the proposed LPMS with mock-up structures and instrumentation facility, test results show that the system is effective in diagnosis of the loose part impact event(i.e., the evaluation of possible impacted area and degree of impact magnitude) as well as in suppressing false alarm generation.

  • PDF

텔레메틱스 단말기 내의 오디오/비디오 명령처리를 위한 임베디드용 음성인식 시스템의 구현 (Implementation of Embedded Speech Recognition System for Supporting Voice Commander to Control an Audio and a Video on Telematics Terminals)

  • 권오일;이흥규
    • 대한전자공학회논문지TC
    • /
    • 제42권11호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 논문에서는 차량 내에서 음성인식 인터페이스를 이용한 오비오, 비디오와 같은 응용서비스 처리를 위해 임베디드형 음성인식 시스템을 구현한다. 임베디드형 음성인식 시스템은 DSP 보드로 제작 포팅된다. 이는 음성 인식률이 마이크, 음성 코덱 등의 H/W의 영향을 받기 때문이다. 또한 차량 내 잡음을 효율적으로 제거하기 위한 최적의 환경을 구축하고, 이에 따른 테스트 환경을 최적화한다. 본 논문에서 제안된 시스템은 차량 내에서의 신뢰적인 음성인식을 위해 잡음제거 및 특징보상 기술을 적용하고 임베디드 환경에서의 속도 및 성능 향상을 위한 문맥 종속 믹스쳐 공유 음향 모델링을 적용한다. 성능평가는 일반 실험실 환경에서의 인식률과 실제 차량 내에서의 실차 테스트를 통해 검증되었다.

일방성(一方性) 복함재료(複合材料)의 파괴거동(破壞擧動) 및 강도평가(强度評價)에 관(關)한 연구(硏究) (A Study on the Strength Evaluation of Unidirectional Carbon Fiber Reinforced Plastics by Nondestructive Method)

  • 장홍근;이주석;조경식;이승희;박은수
    • 비파괴검사학회지
    • /
    • 제7권2호
    • /
    • pp.42-47
    • /
    • 1988
  • 이상의 결과를 요약하면 다음과 같다. 1) 초음파 C-scan 법에 의하여 층간분리, 기지균열 등의 손상 정도, 크기 및 형태의 판별이 가능하며 충격손상은 주로 섬유의 주축방향으로 성장한다. 2) 복합재료의 인장파괴시 적층구조에 따라 상이한 AE 양상을 나타내며 이 원인은 파괴 mode의 차이에 기인한다. 3) 섬유의 파단은 기지파단의 경우 보다 강력한 AE activity를 나타내며 peak amplitude의 분포를 분석하여 파괴 mode의 해석이 가능하다. 4) 복합재료의 파괴강도는 적층구조, 충격 손상 등에 영향을 받으며 응력파 계수(SWF)의 측정에 의해 정성적 평가가 가능하다.

  • PDF

청각 주파수 응답에 기반한 자동 모음 개시 지점 탐지 (Automatic Vowel Onset Point Detection Based on Auditory Frequency Response)

  • 장한;김학태;정길도
    • 한국산학기술학회논문지
    • /
    • 제13권1호
    • /
    • pp.333-342
    • /
    • 2012
  • 이 논문에서는 인간 청각 시스템에 기반한 모음 개시 지점 (VOP) 탐지 방법을 제시하였다. 이 방법을 통해 '지각의' 주파수 범위, 즉 선형 음향 주파수에서의 Mel Scale을 보여준 후 일련의 삼각 Mel-weighted Filter Bank를 만들어 인간의 청각 시스템에서 대역 필터링 기능을 시뮬레이션하였다. 이러한 비선형 임계 대역 Filter Bank는 데이터 차원수를 크게 감소시키고 비선형적으로 간격을 둔 Mel 스펙트럼에서 더욱 효과적으로 포먼트를 생성하기 위해 조파들의 영향을 제거해준다. Mel 스펙트럼의 첨두 에너지 합은 각 프레임의 특징으로 추출하고 에너지 진폭이 급격히 상승하기 시작할 때의 특성은 Gabor 윈도우를 사용하여 VOP로 탐지한다. 실험 결과를 통해서 다른 종류의 자음들과 연결된 12개의 모음들을 포함하는 한 단어 데이터베이스에 대한 제안된 방법의 평균 정확도는 단시간 에너지와 zero-crossing 비율에 기반을 둔 다른 모음 탐지 방법들보다 높은 72.73% 이상임을 확인하였다.

주행중인 자동차 환경에서의 음성인식 연구 (A Study on Speech Recognition in a Running Automobile)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.3-8
    • /
    • 2000
  • 본 논문은 주행중인 자동차 환경에서의 음성인식에 대하여 연구하였다. 여기에서 사용한 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)이며, 인식율을 높이기 위하여 2모델을 제안하였다. 또한 가변적인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누었으며 차량의 잡음에 따라 자동으로 선택하도록 하였다. 음성의 특징 벡터와 인식 알고리즘은 PLP(Perceptual Linear Predictive) 13차와 OSDP(One-Stage Dynamic Programming)를 사용하였다. 그리고 핸드폰을 사용하는 운전자의 안전을 위하여 음성으로 전화를 걸 수 있도록 하는 전화번호 등록 및 제어기능의 Voice Dialing 기능을 추가하였다. 실험결과 주행중인 자동차 환경에서 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시멘트 도로 80km/h이상)에서 남성 화자독립 89.75%의 인식율을 구하였으며, 경부고속도로(아스팔트 도로 80km/h이상)에서는 남성화자독립 92.29%의 인식율을 구하였다.

  • PDF

합성곱 신경망과 장단기 메모리를 이용한 사격음 분석 기법 (Shooting sound analysis using convolutional neural networks and long short-term memory)

  • 강세혁;조지웅
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.312-318
    • /
    • 2022
  • 본 논문은 딥러닝기법 중 하나인 합성곱 신경망과 순환 신경망 중 하나인 장단기 메모리를 이용하여 사격시 발생하는 소음(이하 사격음)만으로 화기의 종류, 사격음 발생지점에 관한 정보(거리와 방향)을 추정하는 모델을 다루었다. 이를 위해 미국 법무부 산하 연구소의 지원하에 생성된 Gunshot Audio Forensic Dataset을 이용하였으며, 음향신호를 멜 스펙트로그램(Mel-Spectrogram)으로 변환한 후, 4종의 합성곱 신경망과 1종의 장단기 메모리 레이어로 구성된 딥러닝 모델에 학습 및 검증 데이터로 제공하였다. 제안 모델의 성능을 확인하기 위해 합성곱 신경망으로만 구성된 대조 모델과 비교·분석하였으며, 제안 모델의 정확도가 90 % 이상으로 대조모델보다 우수한 성능을 보였다.

다중빔 음향 탐사시스템(300 kHz)의 후방산란 자료를 이용한 해저면 퇴적상 분류에 관한 연구 (Surficial Sediment Classification using Backscattered Amplitude Imagery of Multibeam Echo Sounder(300 kHz))

  • 박요섭;이신제;서원진;공기수;한혁수;박수철
    • 자원환경지질
    • /
    • 제41권6호
    • /
    • pp.747-761
    • /
    • 2008
  • 다중빔 음향 탐사 시스템의 후방산란 자료를 대상으로 한 해저면 분류의 가능성을 평가하기 위하여, KONGSBERG SIMRAD EM3000(300kHz) 후방산란 신호를 분석하고 처리하는 소프트웨어를 구현하였다. 강원도 속초항 부근에서 취득한 음압 자료를 이용하여 모자익 영상을 제작하였다. 원격 분류 결과의 검증을 위해 영상 내에서 이질적인 음압 강도로 나타나는 지역에 대하여 잠수사에 의한 직접적인 표층 퇴적물 채취와 비디오 광학 영상을 취득한 후, 후방산란 음압과의 비교를 실시하였다. 연구 대상 지역의 수심은 5m에서 22.7m까지였으며, 모자이크 영상 내의 후방산란 강도 분포는 -15dB에서 -36dB까지 나타났다. 그리고 표층퇴적물 입도 분석 결과, 평균 입도 크기는 최대 $2.86{\phi}$에서 최대 $0.88{\phi}$까지 나타났다. 시료의 입도 분석 자료와 영상의 강도 변화 사이의 상관성을 비교해 본 결과, R값은 0.56으로 나왔다. 입도 분석 자료와 후방산란 음압 자료와의 상관성을 기반으로 구현한 해저면 자동분류 시스템의 인식정도를 정량화하기 위하여, GIS시스템으로 각 대상 자료를 통합하고, 면적비교 기능을 사용하여 평가를 수행하였다. 암반 지역을 사질지역으로, 사질 지역을 암반지역으로 교차 인식하는 오인식율은 약 8.95%로, 평균 입도가 낮은 지역의 인식 면적 차이는 사용자 분류를 기준으로 약 2.06%로 나타났다. 이러한 결과는 평균 입도 변화가 해저면 후방산란에 가장 큰 영향을 미치는 요인임을 지시하고 있다. 따라서 이러한 후방산란 음압을 평가하여 평균 입도 변화를 추적하는 알고리즘을 구현할 수 있었으며, 최종 모자이크 영상을 두 개의 퇴적체로 자동 분류하는 시스템을 구현하게 되었다.

한국어 음성인식 플랫폼 (ECHOS) 개발 (Development of a Korean Speech Recognition Platform (ECHOS))

  • 권오욱;권석봉;장규철;윤성락;김용래;장광동;김회린;유창동;김봉완;이용주
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.498-504
    • /
    • 2005
  • 교육 및 연구 목적을 위하여 개발된 한국어 음성인식 플랫폼인 ECHOS를 소개한다. 음성인식을 위한 기본 모듈을 제공하는 BCHOS는 이해하기 쉽고 간단한 객체지향 구조를 가지며, 표준 템플릿 라이브러리 (STL)를 이용한 C++ 언어로 구현되었다. 입력은 8또는 16 kHz로 샘플링된 디지털 음성 데이터이며. 출력은 1-beat 인식결과, N-best 인식결과 및 word graph이다. ECHOS는 MFCC와 PLP 특징추출, HMM에 기반한 음향모델, n-gram 언어모델, 유한상태망 (FSN)과 렉시컬트리를 지원하는 탐색알고리듬으로 구성되며, 고립단어인식으로부터 대어휘 연속음성인식에 이르는 다양한 태스크를 처리할 수 있다. 플랫폼의 동작을 검증하기 위하여 ECHOS와 hidden Markov model toolkit (HTK)의 성능을 비교한다. ECHOS는 FSN 명령어 인식 태스크에서 HTK와 거의 비슷한 인식률을 나타내고 인식시간은 객체지향 구현 때문에 약 2배 정도 증가한다. 8000단어 연속음성인식에서는 HTK와 달리 렉시컬트리 탐색 알고리듬을 사용함으로써 단어오류율은 $40\%$ 증가하나 인식시간은 0.5배로 감소한다.