• 제목/요약/키워드: voice data

검색결과 1,256건 처리시간 0.035초

청크 기반 시계열 음성의 감정 인식 연구 (A Study on Emotion Recognition of Chunk-Based Time Series Speech)

  • 신현삼;홍준기;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.11-18
    • /
    • 2023
  • 최근 음성 감정 인식(Speech Emotion Recognition, SER)분야는 음성 특징과 모델링을 활용하여 인식률을 개선하기 위한 많은 연구가 진행되고 있다. 기존 음성 감정 인식의 정확도를 높이기 위한 모델링 연구 이외에도 음성 특징을 다양한 방법으로 활용하는 연구들이 진행되고 있다. 본 논문에서는 음성 감정이 시간 흐름과 연관이 있음을 착안하여 시계열 방식으로 음성파일을 시간 구간별로 분리한다. 파일 분리 이후, 음성 특징인 Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), mel-frequency cepastral coefficients (MFCC)를 추출하여서 순차적 데이터 처리에 사용하는 순환형 신경망 모델에 적용하여 음성 데이터에서 감정을 분류하는 모델을 제안한다. 제안한 모델은 librosa를 사용하여 음성 특징들을 모든 파일에서 추출하여, 신경망 모델에 적용하였다. 시뮬레이션은 영어 데이터 셋인 Interactive Emotional Dyadic Motion Capture (IEMOCAP)을 이용하여 recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit(GRU)의 모델들의 성능을 비교 및 분석하였다.

Design for Proximity Voice Chat System in Multimedia Environments

  • Jae-Woo Chang;Jin-Woong Kim;Soo Kyun Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.83-90
    • /
    • 2024
  • 본 연구에서는 멀티미디어 환경에서 상호작용 시스템 중 하나인, 음성 대화 기술에 대하여 근접 음성 대화 시스템을 적용하는 솔루션을 제안한다. 사용자 아바타들 간 거리에 따라 음성의 볼륨을 조절하고, 가청 거리를 벗어난 사용자에게는 음소거를 적용하는 방식으로 멀티미디어 공간에서 여러 사용자 간의 음성 대화 방식을 설계하였다. 본 연구의 가장 큰 특징은 경제적인 개발을 위해, 거리를 기반으로 먼 거리에 있는 사용자에게는 저음질의 음성을 전달하고, 비 가청 지역에 들어선 사용자에게는 음성 데이터를 전송하지 않게 하는, reliable UDP 기반 능동적 서버 시스템에 있다. 제안 시스템은 사전에 완성하였던 유니티 게임 엔진 기반 프로젝트에서 성능을 측정하였으며, 본 연구에서 제안한 시스템을 메타버스 콘텐츠, 실시간 대전 액션 게임과 같이 여러 사용자 간 상호작용을 제공하는 환경에서 적극적으로 이용되는 것을 기대할 수 있다.

음성/데이터 통합망 설계를 위한 이행 단계별 성능평가 (Performance Evaluations of the Computer Networks for the Voice/Data Coexisted Network Design)

  • 엄기복;여현
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.678-683
    • /
    • 2003
  • 본 연구에서는 컴퓨터 통신망에서 음성/데이터 통합을 위하여 이행단계별 성능평가를 실시하고 최적의 모델을 제안하였다. 먼저 기존에 있는 PBX를 데이터 네트워크에서 수용할 경우3.3ms에서 3.5ms 지연이 발생하였고, IP를 이용한 음성/데이터 네트워크 통합시 0.7ms에서 0.9ms지연이 발생하였다. IP+/ATM를 이용한 음성/데이터 네트워크에서는 0.26ms에서 0.32ms 지연이 발생하였고, 일부 지역 네트워크에 장애를 발생 할 경우 IGRP 라우팅 프로토콜은 1.1ms-1.3ms, OSPF 라우팅 프로토콜은 0.9ms-1.2ms의 지연이 발생하였다. 본 연구에서는 컴퓨터 통신망에서 음성/데이터 통합을 하기 위해서는 음성/데이터 통합망은 IP+ATM를 이용하고, 계층적인 통신망에서 사용하는 라우팅 프로토콜은 OSPF를 사용할 때 최적의 성능을 보장 받을 수 있음을 확인하였다.

음성과 데이터 트래픽을 전송하는 3GPP 공통 패킷 채널에서 대기시간을 갖는 채널 접속 제어 (Access Control for Integrated Voice and Data Traffic with Waiting Time Signalling over Common Packet Channel in 3GPP)

  • 박상규;임인천
    • 한국통신학회논문지
    • /
    • 제27권8B호
    • /
    • pp.780-786
    • /
    • 2002
  • 본 논문에서는 음성과 데이터 패킷을 전송하는 WCDMA의 CPCH에서 대기시간의 개념을 적용하여 채널 접속을 제어하는 시스템을 제안한다. 기존의 CA 방식은 모든 CPCH 채널코드가 할당된 상태일 때 VT 및 DT가 채널에 접속하면 노드 B가 이를 차단하게 된다. 그러나 본 논문에서 제안하는 대기시간을 갖는 CA 방식은 모든 CPCH 채널 코드가 할당된 상태라도 접속한 VT 및 DT가 대기시간을 갖고 채널의 할당을 기다릴 수 있기 때문에 과다한 접속을 줄일 수 있다. 따라서 본 논문에서 제안한 대기시간을 갖는 CPCH 채널 접속 방식이 기존의 시스템에 비해 차단 확률과 접속 횟수, 시스템 처리량에서 우수한 성능을 갖는다.

최소 예약슬롯 보증 음성/데이타 집적 PRMA 프로토콜에 관한 연구 (A Study on the Voice/Data Integrated PRMA Protocol With the Minimum Reservation Slot Assured)

  • 김태규;조동호;윤용중
    • 한국통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.250-260
    • /
    • 1993
  • PRMA(Packet Reservation Multiple Access) 프로토콜은 연집 트래픽 특성을 갖는 불특정다수의 단말기들이 공유채널을 엑세스하기 위해 서로 경쟁하는 환경하에서 음성 트래픽과 데이터 트래픽을 집적하여 서비스하는데 매우 효율적인 것으로 잘 알려져 있다. 그러나 PRMA 프로토콜에서는 부하가 커지면 예약채널의 용량이 영(Zero)으로 축소될 수도 있으므로 시스템이 불안정해지고 고부하 상태에서는 제대로 동작할 수 없다. 본 논문에서는 이러한 PRMA의 단점을 보완할 수 있으며 보다 안정되게 동작하는 음성/데이타 직접 PRMA 프로토콜을 제안하고, 프레임 및 슬롯구조를 제시하여, 제안된 프로토콜의 성능을 컴퓨터 시뮬레이션을 통하여 분석해 보았다. 시뮬레이션 결과, 기존의 방식에 비해 제안된 프로토콜이 보다 효율적으로 음성과 데이타를 집적할 수 있으며, 고부하 상태에서도 보다 안정되게 동작함을 알 수 있었다.

  • PDF

멀티미디어 환경하의 계층구조 이동통신 시스템에서의 채널할당방법 (A Channel Allocation Method on Cellular Systems with Multimedia Traffic)

  • 김정기;허선
    • 산업경영시스템학회지
    • /
    • 제22권51호
    • /
    • pp.89-97
    • /
    • 1999
  • 본 논문에서는 음성호 및 데이타호를 동시에 서비스하는 계층구조를 가지는 CDMA 셀룰러 시스템에서 트래픽 특성을 고려한 효율적인 채널 할당 알고리듬을 제안한다. 제안된 채널할당 알고리듬은 신규호나 핸드오프호가 마이크로셀에 접속을 시도하고 만약 여유채널이 존재하지 않으면 상위계층인 매크로셀로 오버플로우(Overflow)되는 방식을 Birth-Death Process를 이용한 Stochastic Model로써 모델링한다. 특히, 이 모델에서는 핸드오프 전용채널을 두고 이 핸드오프 전용채널의 수에 따른 블록킹확률을 구한다. 이 결과를 이용하여 적정한 서비스품질(QoS)을 만족하는 핸드오프 전용채널의 수를 결정한다.

  • PDF

신뢰성있는 화상회의를 위한 CTI System 설계 (The Design of a CTI System for reliable video-conference)

  • 이종열;정현우;박원배
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(1)
    • /
    • pp.225-228
    • /
    • 2000
  • In this paper, a design of the reliable video-conference system using CTI(Computer Telephony Integration) technology is proposed. When video-conference is run on the current existing Internet, the transmission delay problem for voice data traffic can be frequently occurred. In order to transmit the real-time voice data through the Internet efficiently, some complicated algorithms such as CODEC(Code/Decode) should be applied. It can cause further excessive processing delay which can affect the overall performance. The voice traffic is usually transmitted through the reliable PSTN(Public Switched Telephone Network) in the CTI system. In this paper a new architecture, in which PSTN for voice traffic and Internet for video traffic are used at the same time instead of using Internet by itself, is proposed to relieve the problems on a video conference.

  • PDF

변성기 일반 아동 음성의 기본주파수 연구 (Fundamental Frequencies of Normal Children's Voice in mutational Period)

  • 김선해
    • 음성과학
    • /
    • 제14권4호
    • /
    • pp.251-260
    • /
    • 2007
  • The structure changes of the vocal folds are related to the fundamental frequencies (F0). In other words, the increasing in vocal fold length and thickness makes the result of dropping in the F0 during the mutational period. The purpose of this study was to investigate F0 of normal children's voice in mutational period. 360 children (180 boys and 180 girls) were participated in this experiment. The age was ranged from 11 to 16 years. The subjects were asked to produce sustained comer vowels (/a/ /i/ /u/) five times each and the data were analyzed using the MDVP of CSL. The result shows that the F0 are considerably decreased with age and reach to adults' F0 by 16 years in most cases. In particular, the F0 of male subjects were rapidly decreased between the ages from 12 ($226.98\;{\pm}\;19\;Hz$) to 13 years ($169.3\;{\pm}\;25\;Hz$), while the F0 of female subjects were slowly changed from the later period of 12 to 16 years old. This result may be used by the meaning of guideline and lead the basic data to differentiate between normal voice and voice disorder.

  • PDF

잡음환경에서의 Noise Cancel DTW를 이용한 음성인식에 관한 연구 (A Study on Voice Recognition using Noise Cancel DTW for Noise Environment)

  • 안종영;김성수;김수훈;고시영;허강인
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-186
    • /
    • 2011
  • 본 논문에서는 잡음 환경에서의 음성인식 개선에 관한 내용으로 기존의 DTW에서 일종의 특징보상기법을 적용한 방식으로 예측잡음이 아닌 실생활에서의 음성잡음 데이터를 적용하여 인식모델을 잡음상황에 맞도록 적응시키는 방법으로 제안하는 Noise Cancel DTW를 사용하였다. 음성인식 시 주변노이즈를 고려한 참조패턴을 생성하여 특징 보상으로 인식률을 향상 시키는 방법으로 잡음 환경에서 음성 인식률을 향상 시켰다.

Dimensioning Links for NGN VoIP Networks

  • Kim, Yoon-Kee;Lee, Hoon;Lee, Kwang-Hui
    • 한국통신학회논문지
    • /
    • 제28권8B호
    • /
    • pp.683-690
    • /
    • 2003
  • In this paper we present a theoretical framework for the network design with delay QoS guarantee to a voice at the packet level. Especially, we propose a method for estimating the bandwidth at the ingress edge routers accommodating the voice connections and data sessions in the next-generation If network. First, we describe network architecture for VoIP (Voice over IP) services in the NGN (Next Generation Network). After that, we propose a procedure for dimensioning the bandwidth at the output port of a router that accommodates voice and data traffic using the non-preemptive queuing system with strict priority service scheme. Via numerical experiments we illustrate the implication of the proposition.