• Title/Summary/Keyword: 음성다중연구

Search Result 149, Processing Time 0.029 seconds

A Study on Segmental Duratio Control for the Kroean TTS (한국어 문음성 변환기의 음운지속시간 제어에 관한 연구)

  • 김인영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.143-146
    • /
    • 1998
  • 자연스러운 한국어의 음성합성을 위해서는 음운의 지속시간의 제어가 매우 중요하다. 본 연구에서는 POW3848 어절에 대한 음성 데이터에 대해 음운 세그먼트, 음운 라벨링, 품사 태깅을 행한 음성 데이터베이스를 구축하여 한국어 음운의 지속시간을 변화시키는 시간 특징을 통계적으로 분석하였다. 이 시간 특징들 중 변화 폭이 큰 요인들을 제어요소로 각 음운의 고유길이를 최대한 배제하고 단지 음운 발성 환경의 영향에 의한 지속시간 변화만을 고려하는 정규화 지속시간에 대한 회귀트리로 한국어 음운 지속시간을 모델화 하였다. 제안된 음운 지속시간 모델을 실시간 제어 알고리즘으로 구현하여 평가한 결과, 음운 지속시간 예측오차의 88% 정도가 25ms이내 이었고 예측치와 관측치 간의 다중 상관관계수는 0.92 정도로 평가되어, 제안된 모델의 타당성이 입증되었다.

  • PDF

A Study on the Synchronization of Audio and Video Signals (멀티미디어 신호에서 오디오/비디오 신호의 동기화에 관한 연구)

  • 김시호;이승원;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.627-630
    • /
    • 2001
  • 본 연구에서는 MPEG 시스템의 동기화 방식에 대해 조사하고, 이를 바탕으로 특정 어플리케이션 개발에 적용 할 오디오/비디오 동기화 시스템을 구현하고자 한다. 먼저 비디오 신호와 오디오 신호를 각각 MPEG-1 시스템의 비디오 압축 방식과 G.722 팡대역 음성 부호화 방식을 이용하여 부호화하고, 부호화된 두 미디어간의 동기화를 위해 시간 정보를 삽입하여 최종적으로 하나의 비트스트림으로 다중화 하고, 다중화된 비트스트림으로부터 오디오/비디오 신호를 각각 분리하여 재생할 수 있음을 보였다.

  • PDF

Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person (중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘)

  • Suk, Soo-Young;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.6
    • /
    • pp.250-258
    • /
    • 2007
  • Current speech recognition technology s achieved high performance with the development of hardware devices, however it is insufficient for some applications where high reliability is required, such as voice control of powered wheelchairs for disabled persons. For the system which aims to operate powered wheelchairs safely by voice in real environment, we need to consider that non-voice commands such as user s coughing, breathing, and spark-like mechanical noise should be rejected and the wheelchair system need to recognize the speech commands affected by disability, which contains specific pronunciation speed and frequency. In this paper, we propose non-voice rejection method to perform voice/non-voice classification using both YIN based fundamental frequency(F0) extraction and reliability in preprocessing. We adopted a multi-template dictionary and acoustic modeling based speaker adaptation to cope with the pronunciation variation of inarticulately uttered speech. From the recognition tests conducted with the data collected in real environment, proposed YIN based fundamental extraction showed recall-precision rate of 95.1% better than that of 62% by cepstrum based method. Recognition test by a new system applied with multi-template dictionary and MAP adaptation also showed much higher accuracy of 99.5% than that of 78.6% by baseline system.

A study on the implementation of user identification system using bioinfomatics (생물학적 특징을 이용한 사용자 인증시스템 구현)

  • 문용선;정택준
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.6 no.2
    • /
    • pp.346-355
    • /
    • 2002
  • This study will offer multimodal recognition instead of an existing monomodal bioinfomatics by using face, lips, to improve the accuracy of recognition. Each bioinfomatics vector can be found by the following ways. For a face, the feature is calculated by principal component analysis with wavelet multiresolution. For a lip, a filter is used to find out an equation to calculate the edges of the lips first. Then by using a thinning image and least square method, an equation factor can be drawn. A voice recognition is found with MFCC by using mel frequency. We've sorted backpropagation neural network and experimented with the inputs used above. Based on the experimental results we discuss the advantage and efficiency.

An Adaptive Packer Reservation Multiple Access Protocol with Priority(APRMA_P) for Supporting Multi- Multimedia Services (다중 클래스 멀티미디어 서비스 지원을 위한 우선 순위 기반 적응형 패킷 예약 매체 접속 프로토콜)

  • 정다위;조영종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.220-222
    • /
    • 1998
  • 유선 통신과 다르게 무선 통신은 자원의 한정성이란 매체의 특성을 가지고 있어 다중의 사용자가 다른 QoS를 요구하는 멀티미디어 서비스를 지원하기 위해서는 각각의 서비스에 따른 트래픽에 차별화를 두어 매체 접속을 제어하는 것이 효과적인 방법이 될 것이다. 현재, 음성과 데이터를 통합하여 매체 접속 제어를 하는 패킷 예약 다중 접속 방식은 많은 연구가 이루어진 상태이고, 특히, 멀티미디어 지원을 위해 적응형 패킷 예약 다중 접속(APRMA: Adaptive Packet Peservation Multiple Access)방식의 연구가 진행되었다. 본 논문에서는 멀티미디어 지원을 위한 다른 한가지 방법으로 패킷이 경쟁에 참여할 수 있는 파라미터를 서비스의 종류와 활성중인 슬롯의 수에 따라 조정하여 채널의 효율을 보다 향상시키고 패킷 충돌이 일어날 확률도 감소 시킬 수 있는 우선 순위 기반 적응형 패킷 예약 매체 접속 방법 (APRMA_P : APRMA with Prioroty)을 제시한다. 제안된 APRMA_P의 성능을 분석하기 위해 시뮬레이션을 통해서 체널 효율을 기존의 APRMA와 비교 분석한다.

  • PDF

Survey and Classification of Performance Evaluation Techniques for ATM Multiplexer (ATM 다중화기의 성능 분석 기법에 대한 조사 및 분류)

  • Choi, Woo-Yong;Kim, Ji-Soo;Jun, Chi-Hyuck
    • IE interfaces
    • /
    • v.9 no.3
    • /
    • pp.143-156
    • /
    • 1996
  • 음성, 데이터, 화상 등의 다양한 멀티미디어 정보를 하나의 통합된 망을 이용하여 전송하기 위한 새로운 방법으로 ATM(Asynchronous Transfer Mode)이 제안되고 있다. 이 방식은 정보를 일정한 크기의 전송 단위로 나누어 전송한다는 것과 통계적 다중화 방식을 사용한다는 두 가지이 커다란 특징을 가지고 있다. 이러한 특징을 갖는 ATM 망을 효율적으로 구축하고 여러 가지 형태의 제어를 통하여 망 자원을 안정적으로 관리하기 위해서는 망의 성능에 대한 다양한 관점에서의 분석이 필수적이며, 그 기본이 되는 것이 ATM 다중화기에 대한 성능분석이다. 본 논문에서는 ATM 다중화기의 성능분석을 위하여 제안된 기존의 연구들은 조사하여 그 연구방법별로 분류하고 각각의 특징에 대하여 설명하고자 한다.

  • PDF

Implement UDP Socket Server for Real-time Voice Communication on Smart-phone (스마트폰에서 실시간 음성 통신을 위한 UDP Socket Server 구현)

  • Kang, Ji-Hee;Son, Han-Bee;Lim, Yang-Mi
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.11a
    • /
    • pp.79-81
    • /
    • 2017
  • 최근 오디오 기반의 그룹 대화 통신 기술이 급격히 발전하고 있는데 이는 원거리 간의 회의 또는 긴급 구조망, 음성 인식을 활용한 기술 분야에서 필요로 하기 때문이다. 과거 오디오 그룹 간의 실시간 서비스는 영상 통신보다 타이밍에 있어서 사용자에게 딜레이 되는 값을 전송하는 즉 버퍼 컨트롤이 문제가 되어 잘 사용되지 않았었다. 하지만 최근 다중경로 라우팅, QoS 전송량 감소 기술들이 소개되면서 N:N의 대화가 가능하게 되었다. 본 연구에서는 UDP Socket 방식을 활용하여 N:N 실시간 음성 서비스를 개발한다. 이는 무선단말기를 활용하여 3~4인이 그룹핑 되어 노래 경쟁을 할 수 있는 앱에 적용하여 개발하였다. 운전자가 혼자 운전할 때, 다른 지역에서 운전하는 사람들과 음성인식 인터페이스를 활용하여 즉각적인 그룹을 만들고, 자신과 다른 사람들이 노래를 부르고, 듣고 평가하는 과정에서 재미를 느끼게 함으로써 졸음을 방지할 수 있도록 개발하였다.

  • PDF

Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks (음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식)

  • Lee, Chang-Sub;Yu, Jae-Bong;Park, Joon-Seok;Yang, Soo-Ho;Kim, Yu-Seop;Park, Chan-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

A Study on MIMO Acoustic Echo Cancellation Based on Kalman filtering (칼만필터 기반의 다채널 입출력 음향학적 반향제거 방법에 관한 연구)

  • Park, Jihwan;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.460-461
    • /
    • 2018
  • 본 논문에서는 기존의 단일입출력 환경에서의 칼만필터 기반 반향제거방법을 다중입출력 구조로 확장하는 방법을 제안한다. 다중입출력 구조의 반향제거방법은 단일입출력방식보다 우수한 반향제거 성능을 보이면서도 더욱 낮은 음성왜곡도를 보였다.

Acoustic parameters for induced emotion categorizing and dimensional approach (자연스러운 정서 반응의 범주 및 차원 분류에 적합한 음성 파라미터)

  • Park, Ji-Eun;Park, Jeong-Sik;Sohn, Jin-Hun
    • Science of Emotion and Sensibility
    • /
    • v.16 no.1
    • /
    • pp.117-124
    • /
    • 2013
  • This study examined that how precisely MFCC, LPC, energy, and pitch related parameters of the speech data, which have been used mainly for voice recognition system could predict the vocal emotion categories as well as dimensions of vocal emotion. 110 college students participated in this experiment. For more realistic emotional response, we used well defined emotion-inducing stimuli. This study analyzed the relationship between the parameters of MFCC, LPC, energy, and pitch of the speech data and four emotional dimensions (valence, arousal, intensity, and potency). Because dimensional approach is more useful for realistic emotion classification. It results in the best vocal cue parameters for predicting each of dimensions by stepwise multiple regression analysis. Emotion categorizing accuracy analyzed by LDA is 62.7%, and four dimension regression models are statistically significant, p<.001. Consequently, this result showed the possibility that the parameters could also be applied to spontaneous vocal emotion recognition.

  • PDF