• Title/Summary/Keyword: 음성적 변이

Search Result 248, Processing Time 0.034 seconds

Pronunciation Variation Modeling for Korean Point-of-Interest Data Using Prosodic Information (운율 정보를 이용한 한국어 위치 정보 데이타의 발음 모델링)

  • Kim, Sun-He;Park, Jeon-Gue;Na, Min-Soo;Jeon, Je-Hun;Chung, Min-Wha
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.104-111
    • /
    • 2007
  • This paper examines how the performance of an automatic speech recognizer was improved for Korean Point-of-Interest (POI) data by modeling pronunciation variation using structural prosodic information such as prosodic words and syllable length. First, multiple pronunciation variants are generated using prosodic words given that each POI word can be broken down into prosodic words. And the cross-prosodic-word variations were modeled considering the syllable length of word. A total of 81 experiments were conducted using 9 test sets (3 baseline and 6 proposed) on 9 trained sets (3 baseline, 6 proposed). The results show: (i) the performance was improved when the pronunciation lexica were generated using prosodic words; (ii) the best performance was achieved when the maximum number of variants was constrained to 3 based on the syllable length; and (iii) compared to the baseline word error rate (WER) of 4.63%, a maximum of 8.4% in WER reduction was achieved when both prosodic words and syllable length were considered.

Speech Secure Communication Control System Using Chaos Generation Circuit (카오스 발생회로를 이용한 음성비화통신 제어시스템)

  • 여지환;이익수
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.6 no.2
    • /
    • pp.72-80
    • /
    • 1996
  • 본 논문은 카오스 발생회로(chaos generation circuit)를 설계 및 구현하고, 카오스 회로들간의 카오스 동기화(chaos synchronization) 알고리즘을 기초로 하여 카오스 변조통신을 구성하여 음성비화시스템의 구현에 관하여 실험적으로 검증했다. Pecorra와 Carroll 은 카오스 신호로서 카오스 시스템을 구동하면 카오스 동기화가 가능하다고 발표했다. 이러한 제어기법은 카오스 신호의 마스킹과 복원 알고리즘의 등장을 초래했다. 본 연구는 카오스 신호를 발생하기 위하여 상태변수 기법을 이용하여 로렌쯔(Lorenz) 카오스 발생회로를 하드웨어로 구현했다. 수치 실험 및 보드상의 실험에서 카오스 회로는 카오스의 동적특성을 나타냈으며, 카오스 발생회로들간의 카오스 동기제어를 아루었다. 음성비화를 위한 카오스 신호의 변조는 카오스 신호에 음성신호를 가산하여 송신하며, 광대역)spread spectrum)의 카오스 변조통신 (chaotic modulation communication)에서 음성정보는 수신시스템의 카오스 부시스템에서 카오스 신호를 빼내어 신호를 복원한다. 보드상에서 하드웨어로 구현한 카오스 변.복조 통신시스템을 구성하여 음성신호와 비화통신에 카오스 지능제어기법을 적용하였다.

  • PDF

An acoustic Doppler-based silent speech interface technology using generative adversarial networks (생성적 적대 신경망을 이용한 음향 도플러 기반 무 음성 대화기술)

  • Lee, Ki-Seung
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.2
    • /
    • pp.161-168
    • /
    • 2021
  • In this paper, a Silent Speech Interface (SSI) technology was proposed in which Doppler frequency shifts of the reflected signal were used to synthesize the speech signals when 40kHz ultrasonic signal was incident to speaker's mouth region. In SSI, the mapping rules from the features derived from non-speech signals to those from audible speech signals was constructed, the speech signals are synthesized from non-speech signals using the constructed mapping rules. The mapping rules were built by minimizing the overall errors between the estimated and true speech parameters in the conventional SSI methods. In the present study, the mapping rules were constructed so that the distribution of the estimated parameters is similar to that of the true parameters by using Generative Adversarial Networks (GAN). The experimental result using 60 Korean words showed that, both objectively and subjectively, the performance of the proposed method was superior to that of the conventional neural networks-based methods.

Performance Analysis of AAL2 Packet Dropping Algorithm using PDV on Virtual Buffer (PDV를 이용한 가상 버퍼상의 AAL2 패킷 폐기 알고리즘과 성능분석)

  • Jeong, Da-Wi;Jo, Yeong-Jong
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.39 no.1
    • /
    • pp.20-33
    • /
    • 2002
  • Usage of ATM AAL2 packets becomes dominant to increase transmission efficiency of voice traffic in the backbone network. In case of voice service that uses AAL2 mechanism, if resources of network are enough, connection of new call is accepted. However, due to packets generated by the new call, transmission delay of packets from old calls can increase sharply. To control this behavior, in this paper we present an AAL2 buffer management scheme that allocates a virtual buffer to each call and after calculating its propagation delay variation(PDV), decides to drop packets coming from each call according to the PDV value. We show that this packet dropping algorithm can effectively prevent abrupt QoS degradation of old calls. To do this, we analyze AAL2 packet composition process to find a critical factor in the process that influences the end-to-end delay behavior and model the process by K-policy M/D/1 queueing system and MIN(K, Tc)-policy M/D/1 queueing system. From the mathematical model, we derive the probability generating function of AAL2 packets in the buffer and mean waiting time of packets in the AAL2 buffer. Analytical results show that the AAL2 packet dropping algorithm can provide stable AAL2 packetization delay and ATM cell generation time even if the number of voice sources increases dramatically. Finally we compare the analytical result to simulation data obtained by using the COMNET Ⅲ package.

Definition and Evaluation of Korean Phone-Like Units using Hidden Markov Network (HM-Net을 이용한 한국어 유사음소 단위의 재 정의와 평가)

  • Lim Young-Chun;Oh Se-Jin;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.183-186
    • /
    • 2002
  • 최근 음성인식의 인식 단위로서 문맥의존 음향 모델이 널리 사용되고 있다. 이는 음소의 음향학적 특징, 즉 선행 및 후행음소에 의한 중심 음소의 변이음 모델이 문맥독립 모델보다 좀 더 정확하게 모델링 될 수 있기 때문이다. 하지만 강건한 문맥의존 음향 모델을 작성하기 위해서는 모델 파라미터의 병합(tying)과 미지의 문맥(unseen context)의 처리를 위한 좀더 정교한 해결 방법이 필요하다. 따라서 본 논문에서는 이점을 고려하여 음향학적 특징과 언어학적 특징을 결합하여 상태 분할을 수행할 수 있도록 SSS(Successive State Splitting) 알고리즘의 문맥 방향 상태 분할에 음소결정트리를 접목한 HM-Net(Hidden Markov Network) 구조 결정법을 도입하였다. 또한 HM-Net은 연속적인 상태 분할에 의해 한국어에서 많이 발생하는 변이음들을 효과적으로 모델링 할 수 있다는 점을 고려하여 본 연구실에서 기존에 사용하던 48 유사음소 단위에서 문맥의존 음향 모델 작성에 불필요한 변이음을 제거하여 39 유사음소 단위를 재 정의하였다. 도입한 방법과 새로 정의한 유사음소 단위의 유효성을 확인하기 위해 고립 단어, 4연속 숫자음, 연속 음성인식에 대해 인식 실험을 수행한 결과, 모든 실험에서 재 정의한 39 유사음소 단위가 문맥종속형 HM-Net 음향모델을 이용한 한국어 음성인식에 효과적임을 확인할 수 있었다. 특히 연속 음성인식 실험의 경우, 기존의 48 유사음소 단위보다 평균 $15.08\%$의 인식률 향상이 있었다.

  • PDF

A Study on Context Environment and Model State for Robustness Acoustic Models (강건한 음향모델을 위한 모델의 상태와 문맥환경에 관한 연구)

  • 최재영;오세진;황도삼
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.366-369
    • /
    • 2003
  • 본 연구에서는 강건한 문맥의존 음향모델을 작성하기 위한 기초적인 연구로서 문맥환경과 상태수의 변화에 따른 음향모델의 성능을 고찰하고자 한다. 음성은 시간함수로 표현되며 음절, 단어, 연속음성을 발성할때 자음과 모음에 따라 발성시간에 차이가 있으며 음성인식의 최소 인식단위로 널리 사용되는 음소의 앞과 뒤에 오는 문맥환경에 따라 인식성능에 많은 차이를 보이고 있다. 따라서 본 연구에서는 시간의 변화(상태수의 변화)와 상태분할 과정에서 문맥환경의 변화를 고려하여 다양한 형태의 문맥의존 음향모델을 작성하였다. 모델학습은 음소결정트리 기반 SSS 알고리즘(Phonetic Decision Tree-based Successive State Splitting: PDT-555)을 이용하였다 PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 본 연구에서 강건한 문맥의존 음향모델을 학습하기 위한 방법의 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행하였다. 실험결과, 음성의 시간변이에 따른 모델의 상태수와 각 음소의 문맥환경에 따라 인식성능의 변화를 고찰할 수 있었다. 따라서 본 연구는 향후 음성인식 시스템의 강건한 문맥의존 음향모델을 작성하는데 유효할 것으로 기대된다.

  • PDF

Fundamental Frequency Estimation of Voiced Speech Signals Based on the Inflection Point Detection (변곡점 검출에 기반한 음성의 기본 주파수 추정)

  • Byeonggwan Iem
    • Journal of IKEEE
    • /
    • v.27 no.4
    • /
    • pp.472-476
    • /
    • 2023
  • Fundamental frequency/pitch period are major characteristics of speech signals. They are used in many speech applications like speech coding, speech recognition, speaker identification, and so on. In this paper, some of inflection points are used to estimate the pitch which is the inverse of the fundamental frequency. The inflection points are defined as points where local maxima, local minima or the slope changes occur. The speech signal is preprocessed to remove unnecessary inflection points due to the high frequency components using a low pass filter. Only the inflection points from local maxima are used to get the pitch period. While the existing pitch estimation methods process speech signals in blockwise, the proposed method detects the inflection points in sample and produces the pitch period/fundamental frequency estimates along the time. Computer simulation shows the usefulness of the proposed method as a fundamental frequency estimator.

An Effective Vector Quantization using Generating Sequence of the Vector (벡터의 발생 순서를 이용한 효율적인 벡터양자화)

  • 김동환;윤재선;홍광석
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.189-192
    • /
    • 2000
  • 벡터양자화는 신호의 압축에 이용되는 일반적인 방법이다. 그러나 유클리드 거리 등을 이용한 거리 계산량이 많아서 코드북 크기나 압축율의 제한이 있게 된다. 따라서 PDS(partial distance search)와 같은 벡터양자화 부호화의 계산량을 줄이기 위한 많은 방법들이 제안되고 있다. 본 논문에서는 이웃한 음성신호는 급격히 변하지 않고 서서히 변해가는 성질에 착안하여 현재의 벡터 다음에 발생되는 벡터를 조사하여 인덱스를 저장한 후 이를 다음 벡터의 벡터양자화 때 참고함으로써 불필요한 계산을 줄이는 방법이다. 제안한 방법으로 음성신호에 대해 실험한 결과 전탐색의 결과와 비교하여 빠른 시간에 큰 오차없이 벡터양자화 부호화를 할 수 있었다. 이 방법은 PDS와 같은 이미 제안되어 있는 많은 방법들과 같이 이용하면 더욱 효과적인 벡터양자화 부호화를 할 수 있을 것이다.

  • PDF

Access Control Scheme for supporting Mobile Multimedia Service in CDMA Systems (CDMA시스템에서 멀티미디어 서비스 제공을 위한 액세스 제어 방법)

  • Choi Seung-Sik;Koh Jong-Seog
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2002.08a
    • /
    • pp.179-183
    • /
    • 2002
  • 본 논문에서는 광대역 CDMA망에서 음성, 비디오, 데이터와 같은 멀티미디어 서비스를 제공하기 위해서 다양한 서비스 특성에 적합한 액세스 제어 방법을 제안한다. 즉 서비스별로 다른 Eb/No 값을 이용함으로써 서비스의 BER을 조절하고 음성과 비디오의 전송률이 시간에 따라 변하는 특성을 이용하여 데이터의 전송률을 제어하는 방법을 제안하였다. 또한 각 방법에 대한 시뮬레이션과 분석을 수행하였다. 성능 분석결과 제안된 액세스 방법을 사용할 경우 데이터에 대한 지연을 통해 전체적인 outage 발생확률을 감소시킴을 알 수 있었다.

  • PDF

The choice of optimal threshold value of spread spectrum Slotted ALOHA network with CLSP method (CLSP 방식에 의한 대역확산 Slotted ALOHA 네트워크에서 최적 문턱 값 설정)

  • 구인회;오영환
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.12A
    • /
    • pp.1821-1827
    • /
    • 2000
  • 차세대 이동 통신은 음성만이 아닌 멀티미디어 서비스 지원이 필수적이다. 그 중에서도 CLSP(Channel Load Sensing Protocol)에 의한 CDMA ALOHA 방식은 기지국에 있는 허브(HUB)에서 채널의 부하를 센싱하여 일정 문턱 값($\alpha$) 이상의 패킷이 기지국에 수신될 경우 모든 단말기에 접속 불가 명령을 송신함으로써 기존의 ALOHA 방식보다 처리효율을 높였다. 그러나 기존에 고정된 문턱 값은 가변적인 트리픽 부하에 따라서 처리율도 가변적으로 변함으로써 최상의 처리율을 얻지 못했다. 본 논문은 대역확산 Slotted ALOHA 네트워크의 처리율을 높이기 위해서 매 슬롯마다 허브에서 계산되어진 패킷 수를 이용하여 다음 슬롯에 최상의 처리율을 얻을 수 있도록 패킷 문턱 값($\alpha$)을 설정해 주는 알고리즘을 제안하였다. 또한 음성과 데이터 트래픽이 혼합된 멀티미디어 트래픽이 기지국에 수신될 때, 제안된 알고리즘을 사용하여 실시간 트래픽인 음성 트래픽에 따라 데이터 문턱 값(${\gamma}$)을 선택함으로써 실시간 트래픽에 대한 처리율을 향상시켰다.

  • PDF