• Title/Summary/Keyword: 음성데이터

Search Result 1,780, Processing Time 0.03 seconds

Multimedia Traffic Analysis using Markov Chain Model in CDMA Mobile Communication Systems (CDMA 이동통신 시스템에서 멀티미디어 트래픽에 대한 마르코프 체인 해석)

  • 김백현;김철순;곽경섭
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.7
    • /
    • pp.1219-1230
    • /
    • 2003
  • We analyze an integrated voice/data CDMA system, where the whole channels are divided into voice prioritized channels and voice non-prioritized channels. For real-time voice service, a preemptivc priority is granted in the voice prioritized channels. And, for delay-tolerant data service, the employment of buffer is considered. On the other hand, the transmission permission probability in best-effort packet-data service is controlled by estimating the residual capacity available for users. We build a 2-dimensional markov chain about prioritized-voice and stream-data services and accomplish numerical analysis in combination with packet-data traffic based on residual capacity equation.

  • PDF

A Study on the Intergrated Voice/Data transmission Algorithm characteristics on Local Area Network (유선 LAN상의 음성/데이타 혼합전송 알고리즘 특성에 관한 연구)

  • 김동일
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.1 no.2
    • /
    • pp.137-143
    • /
    • 1997
  • From now on, the network is being developed into PSTN(public switched telephone network) and PDN(public data network), that is depend on the form of data. The former one pursues sending voice, and the latter one pursues sending data. But it causes big loss of the economy and efficiency. So, ISDN, processing voice and data at same time, gives a big profit to user. To enlarge the ISDN at the narrow area, it is necessary that study to send the mixture form of voice and data in LAN environment. So, this paper proposes the algorithm about the mixture form of voice and data in ethernet and token-ring. that is widely used in these days.

  • PDF

Data Sampling Strategy for Korean Speech Emotion Classification using wav2vec2.0 (wav2vec2.0을 활용한 한국어 음성 감정 분류를 위한 데이터 샘플링 전략)

  • Mirr-Shin;Youhyun Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.493-494
    • /
    • 2023
  • 음성 기반의 감정 분석은 인간의 감정을 정확하게 파악하는 데 중요한 연구 분야로 자리잡고 있다. 최근에는 wav2vec2.0과 같은 트랜스포머 기반의 모델이 음성 인식 분야에서 뛰어난 성능을 보이며 주목받고 있다. 본 연구에서는 wav2vec2.0 모델을 활용하여 한국어 감성 발화 데이터에 대한 감정 분류를 위한 데이터 샘플링 전략을 제안한다. 실험을 통해 한국어 음성 감성분석을 위해 학습 데이터를 활용할 때 감정별로 샘플링하여 데이터의 개수를 유사하게 하는 것이 성능 향상에 도움이 되며, 긴 음성 데이터부터 이용하는 것이 성능 향상에 도움이 됨을 보인다.

Joint CDMA/PRMA의 성능향상 기법에 관한 연구

  • 국광호;이강원;박정우;강석열
    • Proceedings of the Korea Society for Simulation Conference
    • /
    • 2001.05a
    • /
    • pp.134-134
    • /
    • 2001
  • 이동통신 망을 통한 멀티미디어 통신의 수요 급증으로, 차세대 이동통신 시스템에서는 패킷 교환에 기초한 망 구조가 사용될 것으로 예측된다. VOD(Voice Activity Detector)를 갖는 음성 단말은 데이터를 발생시키는 talk spurt(평균이 t$_1$인 지수분포를 따름)와 데이터를 발생시키지 않는 silence period(평균이 t$_2$인 지수분포를 따름)의 두가지 상태를 갖는 마코프 체인으로 모델링된다. Goodman at. al.은 음성 단말들이 talk spurt동안만 데이터를 전송하게 함으로써 더 많은 가입자들을 수용할 수 있는 PRMA(Packet Reservation Multiple Access) 기법을 제안되었다. PRMA 방식에서는 시간 축이 슬롯들로 구성되며 여러개의 슬롯들로 프레임이 형성된다. Silence period 상태에 있던 음성 단말은 talk spurt 상태가 되면 talk spurt의 첫 번째 데이터를 하나의 슬롯을 통해 전송하게 된다. 이때 단말들은 각 슬롯에서 데이터를 전송할 수 있는 확률을 나타내는 채널 접근 확률(channel access probability)에 의해 데이터를 전송하게 되며 전송에 성공하면 슬롯을 예약함으로서 다음 프레임부터는 동일한 위치의 슬롯을 통해 데이터들을 전송하게 된다. DS/CDMA(Direct Sequence/code Division Multiple Access)는 이동통신 단말의 수용 용량상의 이점, 소프트 핸드오버 능력, 보다 용이하게 셀 계획을 세울 수 있는 점 등에 의해 차세대 이동통신 망에서 채택될 예정이다. CDMA 시스템은 간섭(interference)에 의해 용량이 제한을 받게 되며, MAI(Multiple Access Interference)가 시스템의 성능에 많은 영향을 미치게 된다. Brand, et. al.은 간섭의 분산을 줄이기 위해 PRMA 개념을 DS/CDMA 환경으로 확장한 Joint CDMA/PRMA 프로토콜을 제안하였다. 이때 각 슬롯에서의 데이터 전송확률을 그 슬롯에서 예약상태에 있는 음성 단말의 수에 의존하게 하는 방식을 사용하였으며 데이터 전송확률을 나타내는 채널 접근 확률들을 시뮬레이션을 통해 유도하였다. 한편 음성 단말에게는 실시간 서비스를 제공해 주어야 하는 대신 데이터 단말에게는 실시간 서비스를 제공해 주지 않아도 되므로, 트래픽이 많을 때에는 음성 단말의 데이터 전송에 우선권을 주는 것이 바람직하다. 이를 위해서 Brand, et. al.은 채널 접근 확률을 각 슬롯의 트래픽 상태에 따라 적응적으로 산출하는 기법을 제안하였다. 본 연구에서는 Joint CDMA/PRMA의 성능이 채널 접근 함수의 효율성에 많이 의존하게 되므로 보다 효율적인 채널 접근 확률을 구하는 방법을 제안한다. 즉 채널 액세스 확률을 각 슬롯에서 예약상태에 있는 음성 단말의 수뿐만 아니라 각 슬롯에서 예약을 하려고 하는 단말의 수에 기초하여 산출하는 방법을 제안하고 이의 성능을 분석하였다. 시뮬레이션에 의해 새로 제안된 채널 허용 확률을 산출하는 방식의 성능을 비교한 결과 기존에 제안된 방법들보다 상당한 성능의 향상을 볼 수 있었다.

  • PDF

Performance Evaluations of the Computer Networks for the Voice/Data Coexisted Network Design (음성/데이터 통합망 설계를 위한 이행 단계별 성능평가)

  • Eom, Ki-Bok;Yoe, Hyun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.7 no.4
    • /
    • pp.678-683
    • /
    • 2003
  • This study presents a result of performance with the design of network topology for voice and data integration under computer network. This network is consisted of FastEthernet, other LANs and ATM WAN(wide area network), and performance evaluation of delay in a PBX+IP network, delay in a VoIP network and delay in a IP+ATM network will be shown. We use parameters including network bandwidth, number of packet, routing protocol(IGRP, OSPF). We simulate integrated of voice and data used PBX. we will study further about the case of integrated of voice and data environments using PBX. and, evaluate IP+ATM WAN average measured network delay and average delay of VoIP network.

Semi-supervised learning of speech recognizers based on variational autoencoder and unsupervised data augmentation (변분 오토인코더와 비교사 데이터 증강을 이용한 음성인식기 준지도 학습)

  • Jo, Hyeon Ho;Kang, Byung Ok;Kwon, Oh-Wook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.6
    • /
    • pp.578-586
    • /
    • 2021
  • We propose a semi-supervised learning method based on Variational AutoEncoder (VAE) and Unsupervised Data Augmentation (UDA) to improve the performance of an end-to-end speech recognizer. In the proposed method, first, the VAE-based augmentation model and the baseline end-to-end speech recognizer are trained using the original speech data. Then, the baseline end-to-end speech recognizer is trained again using data augmented from the learned augmentation model. Finally, the learned augmentation model and end-to-end speech recognizer are re-learned using the UDA-based semi-supervised learning method. As a result of the computer simulation, the augmentation model is shown to improve the Word Error Rate (WER) of the baseline end-to-end speech recognizer, and further improve its performance by combining it with the UDA-based learning method.

Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition (라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응)

  • Jeong, Hyeonjae;Goo, Jahyun;Kim, Hoirin
    • Phonetics and Speech Sciences
    • /
    • v.12 no.2
    • /
    • pp.29-37
    • /
    • 2020
  • Recently, the neural network-based deep learning algorithm has dramatically improved performance compared to the classical Gaussian mixture model based hidden Markov model (GMM-HMM) automatic speech recognition (ASR) system. In addition, researches on end-to-end (E2E) speech recognition systems integrating language modeling and decoding processes have been actively conducted to better utilize the advantages of deep learning techniques. In general, E2E ASR systems consist of multiple layers of encoder-decoder structure with attention. Therefore, E2E ASR systems require data with a large amount of speech-text paired data in order to achieve good performance. Obtaining speech-text paired data requires a lot of human labor and time, and is a high barrier to building E2E ASR system. Therefore, there are previous studies that improve the performance of E2E ASR system using relatively small amount of speech-text paired data, but most studies have been conducted by using only speech-only data or text-only data. In this study, we proposed a semi-supervised training method that enables E2E ASR system to perform well in corpus in different domains by using both speech or text only data. The proposed method works effectively by adapting to different domains, showing good performance in the target domain and not degrading much in the source domain.

The Research about Voice Transmission between CDMA Network and PSTN Network Using CDMA Circuit Data Service (CDMA 회선 데이터 서비스를 이용한 CDMA망과 PSTN 망간의 음성 전송에 관한 연구)

  • Park, Yong-Seok;Ahn, Jae-Hwan;Ryou, Jae-Cheol
    • The KIPS Transactions:PartC
    • /
    • v.15C no.5
    • /
    • pp.367-374
    • /
    • 2008
  • To realize the voice privacy between CDMA mobile phone and PSTN terminal, the voice frames shall be transmitted transparently between the heterogeneous networks. For satisfying this requirement, we propose the method which transmits voice frames using the CDMA circuit data channel in real time. In this paper we analyze the causes of voice delay which occurs during voice transmission using circuit data channel. And in order to overcome this kind of delay, the technique controlling the TCP control flag and the variable audio block construction algorithm according to the vocoder output rate are proposed. As a result of experimenting by applying the proposed method, we confirmed that the transit delay was improved with about average 70%.

Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks (음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식)

  • Lee, Chang-Sub;Yu, Jae-Bong;Park, Joon-Seok;Yang, Soo-Ho;Kim, Yu-Seop;Park, Chan-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

A Study on Speech Recognition System Using Continuous HMM (연속분포 HMM을 이용한 음성인식 시스템에 관한 연구)

  • Kim, Sang-Duck;Lee, Geuk
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF