• 제목/요약/키워드: Environment sound recognition

검색결과 55건 처리시간 0.011초

자동차 주행 환경에서의 음성 전달 명료도와 음성 인식 성능 비교 (Comparison of Speech Intelligibility & Performance of Speech Recognition in Real Driving Environments)

  • 이광현;최대림;김영일;김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.99-110
    • /
    • 2004
  • The normal transmission characteristics of sound are hardly obtained due to the various noises and structural factors in a running car environment. It is due to the channel distortion of the original source sound recorded by microphones, and it seriously degrades the performance of the speech recognition in real driving environments. In this paper we analyze the degree of intelligibility under the various sound distortion environments by channels according to driving speed with respect to speech transmission index(STI) and compare the STI with rates of speech recognition. We examine the correlation between measures of intelligibility depending on sound pick-up patterns and performance in speech recognition. Thereby we consider the optimal location of a microphone in single channel environment. In experimentation we find that high correlation is obtained between STI and rates of speech recognition.

  • PDF

능동형 기울기 가중치 제약에 기반한 환경소리 인식시스템용 DTW 알고리듬 (Active Slope Weighted-Constraints Based DTW Algorithm for Environmental Sound Recognition System)

  • 정영진;이윤정;김필운;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제11권4호
    • /
    • pp.471-480
    • /
    • 2008
  • 농자들은 청각장애를 가지고 있기 때문에 알람, 도어 벨, 싸이렌, 경적, 전화 벨 등과 같은 유용한 소리정보를 인식할 수 없다. 이러한 문제를 해결하기 위해서는 주요한 환경소리 인식방법을 탑재한 휴대형 청각보조 장구가 요구되어진다. 본 논문에서는 환경소리 인식시스템에 적용할 수 있는 능동형 기울기 가중치제약 방식의 새로운 동적 시간정합 알고리듬을 제안하였다. 환경소리 인식방법은 크게 세 단계로 구성된다. 첫 번째 단계에서는 소리의 주파수 성분과 크기를 이용하여 시작점과 끝점을 추출한다. 두 번째 단계에서는 추출된 구간에 대하여 특징을 추출하며 세 번째 단계에서는 추출된 특징들을 분류한다. 실험 결과 제안한 방법의 인식률이 거의 90%가 되었다. 그리고 기존의 동적 시간정합 알고리듬과 비교하였을 때 인식율에 있어서 약 20%정도의 개선이 있었다. 따라서 제안된 방법을 사용하여 농자가 환경소리를 인식할 수 있는 휴대형 청각 보조 장구가 개발된다면 그들의 생활에 편리함을 줄 수 있을 것으로 판단된다.

  • PDF

스마트 시티에서의 이머전시 사운드 감지방법 (A Emergency Sound Detecting Method for Smarter City)

  • 조영임
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1143-1149
    • /
    • 2010
  • Because the noise is the main cause for decreasing the performance at speech recognition, the place or environment is very important in speech recognition. To improve the speech recognition performance in the real situations where various extraneous noises are abundant, a novel combination of FIR and Wiener filters is proposed and experimented. The combination resulted in improved accuracy and reduced processing time, enabling fast analysis and response in emergency situations. Usually, there are many dangerous situations in our city life, so for the smarter city it is necessary to detect many types of sound in various environment. Therefore this paper is about how to detect many types of sound in real city, especially on CCTV. This paper is for implementing the smarter city by detecting many types of sounds and filtering one of the emergency sound in this sound stream. And then it can be possible to handle with the emergency or dangerous situation.

멀티 신호를 이용한 환경 인식 성능 개선 (Improvement of Environment Recognition using Multimodal Signal)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.27-33
    • /
    • 2010
  • 본 연구에서는 9가지 환경에서 마이크로폰과 자이로센서, 가속도센서를 이용하여 얻은 데이터를 특징 추출한 후 각 특징들을 조합하여 GMM (Gaussian Mixture Model)을 이용한 분류실험을 수행하였다. 기존의 환경 인식에 관한 연구들에서는 주로 마이크로폰을 이용한 환경음 데이터를 통해 인식주체의 환경 상황을 인식하고자 하였으나, 여러 노이즈들이 결합한 형태로 좋은 특징을 얻기 어려운 환경음의 구조적 특성으로 인해 그 인식 성능에 한계가 있었다. 이에 본 연구에서는 환경상황을 인식하기 위한 또 다른 방법으로 인식주체의 움직임 특성을 반영하기 위해 자이로센서와 가속도센서의 데이터를 특징에 추가 적용하는 방식을 제안하였다. 실험결과 따르면 마이크로폰을 통해 얻은 환경음의 특징만을 이용하는 기존의 방식들에 비해 가속도센서를 통해 얻은 데이터를 기존의 환경음 특징벡터와 조합한 경우에서 5% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

병원안전을 위한 입원실 음향패턴 인식 관한 연구 (A study on Recognition of Inpatient Room Acoustic Pattern for Hospital safety)

  • 류한술;안종영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.169-173
    • /
    • 2021
  • 현재 병원에서의 안전사고가 꾸준히 발생하고 있다. 특히, 요양병원 등 면역력이 약한 고령환자의 안전사고가 지속적으로 발생하고 있으며 이에 대한 대책이 필요하다. 대부분의 사고는 거동이 불편한 환자의 움직임에 의해 일어나고 있다. 이에 환자의 움직임에 따른 입원실 음향을 분석하고 인식하여 관리자가 사전대처 하여 안전사고를 줄이는 방법으로 본 논문에서는 시계열 패턴인식에 적용 가능한 알고리즘인 DTW (Dynamic Time Warping)을 사용하여 병원 입원실 음향인식을 위한 음향패턴을 분류하여 병원 입원실 환경에 적용하여 분석 하였다.

광역 스펙트로그램과 심층신경망에 기반한 중첩된 소리의 인식과 영향 분석 (Recognition of Overlapped Sound and Influence Analysis Based on Wideband Spectrogram and Deep Neural Networks)

  • 김영언;박구만
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.421-430
    • /
    • 2018
  • 많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다. 중첩된 소리들의 주파수는 사람의 목소리보다 높은 최대 20 kHz까지 넓은 주파수 범위로 구성된다. 본 논문에서는 광역 사운드 스펙트로그램과 DNN에 기반한 케라스 시?셜 모델 기법을 활용하여 인지 주파수 범위를 넓게 확대하는 새로운 인식방법을 제안한다. 광역 사운드 스펙트로그램이 본 논문에서 설계된 특징 추출 및 분류 시스템과 같이 넓은 주파수 범위의 다양한 소리를 분석하고 실험하도록 채택되었다. 소리 인식률을 개선하기 위하여, 케라스 시?셜 모델이 사운드 스펙트로그램에 의하여 생성되어 추출된 특징을 사용하여 패턴인식을 수행하기 위한 방법으로 채용되었다. 제안된 특징 추출 및 분류 시스템이 광역 사운드 스펙트로그램과 케라스 시?셜 모델을 채용하여 애완동물 소리와 실내 소리같은 다양한 주파수들로 구성되어 중첩된 음향 속에서 설정된 소리를 우수하게 분류하는 것을 확인하였다. 그리고 중첩된 소리의 크기에 비례하여 인식에 미치는 특성과 영향을 단계별로 비교 분석하였다.

기계식 타이머의 치차음 인식 시스템 개발 (Development of the Mechanical Timer's Gear Sound Recognition system)

  • 서영호;이돈진;안중환
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2001년도 춘계학술대회 논문집
    • /
    • pp.217-220
    • /
    • 2001
  • We have developed the gear sound recognition system of mechanical timer. A mechancal timer is superior in endurance to electronic timer. So it is reliable under severe operating environment. It is putting together several kind of gears. Therefore when the timer operates, it emits mechanical sound of gears. We have chosen a microphone to detect the gear sound. A microphone is more efficient and convenient than other sensors. Because it is of low price and non-contact type sensor. For ease of measurement we designed real-time processing software based on graphical user interface.

  • PDF

가우스 분류기를 이용한 입술영역 추출 (Lip Region Extraction by Gaussian Classifier)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.108-114
    • /
    • 2017
  • Lip reading is a field of image processing to assist the process of sound recognition. In some environment, the capture of sound signal usually has significant noise and therefore, the recognition rate of sound signal decreases. Lip reading can be a good feature for the increase of recognition rates. Conventional lip extraction methods have been proposed widely. Maia et. al. proposed a method by the sum of Cr and Cb. However, there are two problems as follows: the point with maximum saturation is not always regarded as lips region and the inner part of lips such as oral cavity and teeth can be classified as lips. To solve these problems, this paper proposes a method which adopts the histogram-based classifier for the extraction of lips region. The proposed method consists of two stages, learning and test. The amount of computation is minimized because this method has no color conversion. The performance of proposed method gives 66.8% of detection rate compared to 28% of conventional ones.

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.