• 제목/요약/키워드: Simulation speech

검색결과 301건 처리시간 0.025초

스펙트럴 차원의 잡음처리를 이용한 음성인식 (Speech Recognition Using Noise Processing in Spectral Dimension)

  • 이광석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.738-741
    • /
    • 2009
  • 본 연구는 잡음을 포함한 음성 환경에서의 음성인식을 개선방안에 관한 것이다. 우리는 음성인식에서 잡음 섞인 음성으로부터 얻은 스펙트럴 envelope에서 곡들의 스펙트럴 subtraction 및 복원이 보다 더 효과적임을 알 수 있었다. 본 연구에서, 평균화된 스펙트럴 envelope은 모음 스펙트럼으로부터 추출하여 곡들의 강조에 사용하였다. 낮은 주파수 영역에서의 모음 스펙트럴 정보는 강조되어지고 자음으로부터 얻은 스펙트럼은 변하지 않는다. 시뮬레이션으로 살펴보면, 강조계수는 켑스트럴 영역에서 변한다. 이 방법으로 잡음석인 숫자음성 인식에서 적용하였으며 인식결과가 개선됨을 알 수 있었다.

  • PDF

잡음 환경에서 압신을 이용한 인공 와우 환자의 언어 인지 향상 시뮬레이션 연구 (A simulation study of speech perception enhancement for cochlear implant patients using companding in noisy environment)

  • 이영우;지윤상;이종실;김인영;김선일;홍성화;이상민
    • 대한전자공학회논문지SP
    • /
    • 제43권5호
    • /
    • pp.79-87
    • /
    • 2006
  • 본 연구에서 인공 와우 환자의 잡음 상황에서 음성 신호 강조와 잡음 제거를 위한 전 처리로서 companding strategy를 적용하고 이를 평가하였다. Companding은 인간의 청각 특성인 two tone suppression에 기반하며 이는 음성 스펙트럼 피크를 강화하고 배경 잡음을 감소시킨다. 하지만 companding은 잡음 제거와 스펙트럼 피크의 강화에 효과적인 반면, 제한된 채널의 수와 비선형 블록으로 인한 음성 정보 손실의 교환 특성을 가진다. 따라서 본 연구에서는 잡음 제거와 음성 정보 손실의 정도가 상대적인 두 companding 구조를 설계하여 개인마다 잡음 상황에서 언어 인지 특성차이에 따른 적절한 필터 뱅크를 도출하였으며, 낮은 신호 대 잡음 비 환경에서 인공 와우 환자의 언어 인지 향상을 위한 방법을 제시하였다. 제안된 알고리즘은 잡음 밴드 시뮬레이션을 이용하여 정상인 5명에게 평가되었다. 모든 피실험자에게서 효과적인 언어 인지의 향상이 관측되었고, 각 피실험자가 선호하는 필터 뱅크는 다르게 나타났다.

Otsu 방법을 이용한 음성 종결점 탐색 알고리즘 (Otsu's method for speech endpoint detection)

  • 고유;장한;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.40-42
    • /
    • 2009
  • This paper presents an algorithm, which is based on Otsu's method, for accurate and robust endpoint detection for speech recognition under noisy environments. The features are extracted in time domain, and then an optimal threshold is selected by minimizing the discriminant criterion, so as to maximize the separability of the speech part and environment part. The simulation results show that the method play a good performance in detection accuracy.

  • PDF

G.729A에서 EVRC로의 상호부호화 (A Transcoding Algorithm from G.729A to EVRC)

  • 곽영진;정지민;권구락;임정석;황인호;이경훈;고성제
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2248-2251
    • /
    • 2003
  • Communication between speech networks employing different speech codecs requires interoperability. The cascade connection of two different codecs, called tandem coding, not only degrades speech quality, but also produces high computational loads. These Problems can be solved by using the transcoding algorithm. This paper presents an effective algorithm for transcoding from G.729A to EVRC and its simulation results.

  • PDF

디지털 이동통신을 위한 비트 선택적 에러정정부호 (Bit-selective Forward Error Correction for Digital Mobile Communications)

  • 양경철;이재홍
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.198-202
    • /
    • 1988
  • In digital mobile communications received speech data are affected by burst errors as well as random errors. To overcome these errors we propose a bit-selective forward error correction scheme for the speech data which is sub-band coded at 13 kbps and transmitted over a 16 kbps channel. For a few error correcting codes the signal-to-noise ratio of error-corrected speech is obtained and compared through the simulation of mobile communication channels.

  • PDF

SER 기술을 이용한 대화형 시뮬레이션 게임 제안 (A Proposal of an Interactive Simulation Game using SER (Speech Emotion Recognition) Technology)

  • 이강희;전서현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.445-446
    • /
    • 2019
  • 본 논문에서는 단순히 필요한 정보를 얻기 위한 수준에 그쳤던 현대의 인공지능을 SER (Speech Emotion Recognition) 기술을 이용하여 사용자와 직접적으로 대화하는 형식으로 발전시키고자 한다. 사용자의 음성 언어에서 감정을 추출하여 인공지능 분야 및 챗봇과 대화함에 있어 좀더 효과적으로 해석할 수 있도록 도움을 준다. 이것을 대화형 시뮬레이션 게임에 접목시켜 단순한 선택형 대화 방식이 아닌 구어체로 대화하며 사용자에게 높은 몰입도를 줄 수 있다.

  • PDF

Voice Quality Criteria for Heterogenous Network Communication Under Mobile-VoIP Environments

  • Choi, Jae-Hun;Seol, Soon-Uk;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권3E호
    • /
    • pp.99-108
    • /
    • 2009
  • In this paper, we suggest criteria for objective measurement of speech quality in mobile VoIP (Voice over Internet Protocol) services over wireless mobile internet such as mobile WiMAX networks. This is the case that voice communication service is available under other networks. When mobile VoIP service users in the mobile internet network based on packet call up PSTN and mobile network users, but there have not been relevant quality indexes and quality standards for evaluating speech quality of mobile VoIP. In addition, there are many factors influencing on the speech quality in packet network. Especially, if the degraded speech with packet loss transfers to the other network users through the handover, voice communication quality is significantly deteriorated by the transformation of speech codecs. In this paper, we eventually adopt the Gilbert-Elliot channel model to characterize packet network and assess the voice quality through the objective speech quality method of ITU-T P. 862. 1 MOS-LQO for the various call scenario from mobile VoIP service user to PSTN and mobile network users under various packet loss rates in the transmission channel environments. Our simulation results show that transformation of speech codecs results in the degraded speech quality for different transmission channel environments when mobile VoIP service users call up PSTN and mobile network users.

KTX 의자 설계에 따른 객실 Speech Privacy 평가 (Evaluation of Speech Privacy on the Seat-design in High-speed Train Passenger Cars)

  • 장형석;김재현;전진용
    • 한국소음진동공학회논문집
    • /
    • 제24권2호
    • /
    • pp.146-153
    • /
    • 2014
  • This study investigates the effects of seat-design elements such as seating arrangement, shape, and height on speech privacy in high-speed trains. For the evaluation of speech privacy, acoustic simulation software was used to reproduce room acoustical conditions in passenger cars on the basis of in-situ measurement data. The influences of speech source directivity and source height on privacy distance ($r_P$) were investigated, and it was found that $r_P$ determined using an omni-directional source was relatively shorter than that determined using a directional source. It was also found that $r_P$ decreased when the source height was lower than the height of the seat-back because the seat-back blocked the propagation of speech from the sound source. The effect of seating arrangement was not significant when comparing the vis-a-vis seating and one-side seating arrangements. In addition, among the alternative seat-designs, the seats that block the space between the seats and cover the space near the ear were found to show significantly enhanced speech privacy in high-speed train passenger cars.

자동차 환경내의 음성인식 자동 평가 플랫폼 연구 (A Study of Automatic Evaluation Platform for Speech Recognition Engine in the Vehicle Environment)

  • 이성재;강선미
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.538-543
    • /
    • 2012
  • 주행 중 차량내의 음성인터페이스 에서 음성인식기의 성능은 가장 중요한 부분이다. 본 논문은 차량내 음성인식기의 성능 평가를 자동화하기 위한 플랫폼의 개발에 대한 것이다. 개발된 플랫폼은 주 프로그램, 중계 프로그램 데이터베이스 관리, 통계산출 모듈로 구성된다. 성능 평가에 있어 실제 차량의 주행 조건을 고려한 시뮬레이션 환경이 구축되었고, 미리 녹음된 주행 노이즈와 발화자의 목소리를 마이크를 통해 입력하여 실험하였다. 실험 결과 제안하는 플랫폼에서 얻어진 음성인식 결과의 유효성이 입증되었다. 제안한 플랫폼으로 사용자는 음성인식의 자동화와 인식결과의 효율적인 관리 및 통계산출을 함으로서 차량 음성인식기의 평가를 효과적으로 진행할 수 있다.