• 제목/요약/키워드: 음성다중

검색결과 350건 처리시간 0.031초

감정 인지를 위한 음성 및 텍스트 데이터 퓨전: 다중 모달 딥 러닝 접근법 (Speech and Textual Data Fusion for Emotion Detection: A Multimodal Deep Learning Approach)

  • 에드워드 카야디;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.526-527
    • /
    • 2023
  • Speech emotion recognition(SER) is one of the interesting topics in the machine learning field. By developing multi-modal speech emotion recognition system, we can get numerous benefits. This paper explain about fusing BERT as the text recognizer and CNN as the speech recognizer to built a multi-modal SER system.

ON-OFF 입력을 갖는 유한 크기 ATM 다중화기의 큐잉분석 (Queueing Analysis of the Finite Capacity ATM Multiplexer with the ON-OFF Input)

  • 김승환;박진수
    • 한국통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.889-894
    • /
    • 1993
  • ATM은 음성, 비데오, 벌크 데이타등과 같은 다양한 형태의 버스트 트래픽을 수용할 수 있다. ATM망에서 트래픽 소오스를 효과적으로 처리하거나 가능한한 대역폭 사용율을 증가시키기 위해서는 통계적 다중화 구조가 채택되어야 한다. 본 논문은 독립적인 입력 소오스를 갖고 유한개의 버퍼 크기를 갖는 큐잉 시스템에서 큐 상태분포를 계산하기 위한 효과적인 계산 절차를 논의하고, 이러한 반복적인 계산방법을 통해 셀 손실율을 정확하게 계산한다. 또한 동질의 ON-OFF 소오스를 갖는 ATM 다중화기에 대해 몇가지의 수치계산 예를 통해 셀 손실율의 특성을 조사해 본다.

  • PDF

CRT와 중첩다중비트 주사기법을 접목한 승산기 (Multiplier Using CRT and Overlapped Multiple-bit Scanning Method)

  • 김우완;장상동
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.749-755
    • /
    • 2003
  • 최근 레지듀 수체계를 기반으로 하는 컴퓨터 영상처리, 음성출력 등의 디지털 신호처리 하드웨어에 관한 연구가 고속저가의 하드웨어 구현에 크게 기여하고 있다. 본 논문에서는 모듈라이$(2^k-1, 2^k, 2^k+1)$를 사용하여 RNS에서 WNS로 WNS에서 RNS로 변환하는 방법을 통해 승산기를 설계 및 구현한다. 이는 CRT 변환을 중첩다중비트 주사기법을 접목한 시뮬레이션을 통해, 기존의 방법보다 속도가 빠르다는 것을 알 수 있고, 이는 RNS의 병렬처리와 캐리부재의 연산특성 때문임을 알 수 있다.

복합 생체 척도 거리를 이용한 사용자 인증시스템의 구현 (An Implementation of User Identification System Using Hrbrid Biomitic Distances)

  • 주동현;김두영
    • 융합신호처리학회논문지
    • /
    • 제3권2호
    • /
    • pp.23-29
    • /
    • 2002
  • 본 논문에서는 정확도 향상을 위해 다중 생체 인식정보와 비접촉 IC카드를 사용하는 사용자 인증시스템을 제안하였다. 다중 생체 인식정보는 안면영상, 홍채영상, 4-digit 음성암호로 구성하였으며, 비접촉 IC-Card는 사용자의 기본정보를 제공한다. 만약 사용자의 기본정보화 부합되는 표본화된 다중생체 인식정보와 현장에서 측정된 생체정보와의 거리가 threshold보다 작은경우에 본인으로 인증하였고, 그외의 경우에는 기각시키는 방식을 사용하였다 본 논문에서는 실험을 통해, 기존의 인식방식보다 사용자의 인증률이 개선됨을 보였다.

  • PDF

비동기 DS-CDMA 시스템에서 정규화된 채널 등화 개선에 관한 연구 (A Study on the Improvement of Normalized Channel Equalization for the Asynchronous DS-CDMA System)

  • 박노진;강철호
    • 한국통신학회논문지
    • /
    • 제26권6B호
    • /
    • pp.736-745
    • /
    • 2001
  • 차세대 이동통신 시스템은 고속의 멀티미디어 데이터의 신뢰성 있는 전송을 요구하고 다양한 전파환경에서 신뢰성 있는 음성, 데이터, 영상서비스 등의 다양한 서비스를 제공한다. 하지만 광대역 무선 접속을 지원하는 다중 접속 기술은 DS-CDMA(Direct Sequence Code Division Multiple Access) 시스템에서 시스템 성능을 저하시키는 심벌간 간섭(ISI) 혹은 다중접속간섭(MAI) 신호를 발생시킨다. 이러한 간섭 신호를 개선하기 위해 적응 블라인드 등화 방식을 사용하는데 적응 블라인드 등화 방식 중에서도 가장 많이 이용하는 Constant Modulus Algorithm(CMA)을 적절한 초기화 없이 사용하면 ill-convergence 현상이 나타난다. 본 논문에서는 채널의 효율을 높이기 위한 등화 방식으로 기존의 NCMA 알고리듬을 이용한 새로운 블라인드 등화 방식(Modified NCMA)을 제안하고, 이를 비동기 DS-CDMA 시스템의 다중 사용자 환경에서 컴퓨터 모의 실험 및 성능분석을 하였다. 제안한 등화 방식의 자승오차(SE : Squared Error)의 개선은 spreading gain 31과 127에 대해 cell 내의 사용자가 10명일 때 약 17dB 정도이고, 사용자가 15, 25명으로 증가시킴에 따라 자승오차의 개선은 각각 20dB, 15dB 정도로 전체 평균 자승오차는 약 17.3dB 정도로 개선됨을 확인할 수 있었다.

  • PDF

이동 단말기에서 다중 서비스 지원 방안 (Method for Supporting Multiple Service in a Mobile Terminal)

  • 이종찬;박상준;이진관
    • 융합보안논문지
    • /
    • 제8권2호
    • /
    • pp.79-85
    • /
    • 2008
  • 본 논문은 다중 세션 지원 방법에 관한 것으로, 이동 단말기가 멀티미디어 서비스를 위한 SDP(Session Data Protocol) 설정 시 각 프로토콜 계층을 구분하기 위한 식별자를 세션에 따라 다르도록 설정하고, 계층별 식별자를 연계하여 복수의 세션을 구분한다. 다중 세션을 처리하기 위하여 주 처리 태스크와 부 태스크를 둔다. 이 태스크는 QoS 속성을 사용하여 무선 인터페이스상에서 세션 단위로 트래픽 관리를 수행한다. 이를 기반으로 큐잉, 수락 제어, 부하 제어, 자원 할당 그리고 스케쥴링이 세션의 우선순위를 기반으로 처리된다. 이를 통하여 하나의 MT에 동시에 여러 종류의 서비스를 제공할 수 있게 함으로써 음성, 영상, 데이터 서비스 등 자원 할당 요구사항이 서로 다른 서비스들이 공존 가능하게 된다.

  • PDF

정상 성인에서 음성 및 말소리 범위 프로파일을 이용한 발화 기본주파수 예측 (Prediction of speaking fundamental frequency using the voice and speech range profiles in normal adults)

  • 이승진;김재옥
    • 말소리와 음성과학
    • /
    • 제11권3호
    • /
    • pp.49-55
    • /
    • 2019
  • 본 연구에서는 한국인 정상 성인에서 음성(VRP) 및 말소리 범위 프로파일(SRP)을 이용하여 문단 읽기 시 전기성문파형검사(EGG)를 이용하여 측정한 평균 발화 기본주파수(SFF)를 예측할 수 있는지 알아보고자 하였다. 또한 추정된 기본주파수(ESFF)와 실제 SFF 간 차이(DSFF)에 있어 성별 차이가 있는지 알아보고자 하였다. 연구대상은 정상 음성을 가진 한국어 모국어 화자 85명이었다. 각 대상자는 /a/ 발성으로 전체 음역대를 측정하는 VRP 과제, '가을' 문단의 첫 번째 문장을 읽어 말소리 산출 시 음역대를 측정하는 SRP 과제, 전체 문단을 읽어 SFF를 측정하는 문단 읽기 과제를 수행하였다. VRP와 SRP를 통해 측정된 음역대 관련 변수들와 연령, 성별이 EGG를 통해 측정된 SFF를 예측할 수 있는지 알아보기 위해 단계적 다중회귀분석을 시행하였고, 예측된 ESFF와 SFF 간 차이의 절대값(DSFF)과 그 합계를 구하였다. 연구 결과, SFF의 예측변인은 VRP에서는 최저음도, 음도범위, 성별, 연령(adjusted $R^2=.931$)이었으며, SRP에서는 반음 단위 음역대와 최고음도(adjusted $R^2=.963$)였다. VRP와 SRP를 통해 예측된 두 가지 ESFF와 실제 SFF 사이에는 강한 양의 상관관계가 있었다. VRP와 SRP를 이용한 DSFF와 그 합계에 있어 성별 차이는 없었다. 결론적으로 VRP와 SRP를 통해 문단 읽기 시 SFF를 예측할 수 있었으며, SFF의 이상을 보일 수 있는 음성장애 환자에서 후속 연구를 통하여 임상적 시사점을 탐색할 필요가 있을 것으로 여겨진다.

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

전이구간 부호화를 이용한 2.4 kbit/s 다중모드 음성 부호화 방법 (Method of a Multi-mode Low Rate Speech Coder Using a Transient Coding at the Rate of 2.4 kbit/s)

  • 안영욱;김종학;이인성;권오주;배문관
    • 대한전자공학회논문지SP
    • /
    • 제42권2호
    • /
    • pp.131-142
    • /
    • 2005
  • 현재 개발된 4 kbit/s이하의 저 전송율 음성부호화 시스템은 STC(Sinusoidal Transform Coding)나 MBE (Multi-band Excitation Coding)에 바탕을 두고 있다. 이러한 저 전송율 부호화기들은 대표적인 전이구간 신호인 유성음의 시작점과 끝점에서의 혼합신호(onset signal, offset signal), 비주기적인 신호(non-period signal) 등은 정확히 표현하지 못하기 때문에 자연스런 음질을 만들어 내지 못한다. 본 논문에서는 유성음에는 하모닉 모델, 무성음에서는 스토케스틱 모델, 전이구간에는 하모닉 기반의 비주기적인 펄스의 위치를 추적하는 방식을 사용하여 효과적으로 전이구간을 모델링 하는 방법과 2.4 kbit/s 다중모드 부호화방법을 제안한다. 제안한 방법은 원본신호에서 선형예측 부호화 방법으로 추출된 잔여신호를 신호의 성격에 따라 모델을 달리하는 방법이며, 자각의 신호의 성격에 따라 좋은 성능을 나타내는 모델을 사용하였다. 또한 효율적인 전이구간 모델링 방법의 도입으로 저 전송율에서 CELP(Code Excitation Linear Predictive) 부호화 방식에 의해 시간축에서 합성되는 여기신호와 선형위상을 이용한 하모닉 부호화 방식에 의해 주파수축에서 합성되는 여기신호를 효율적으로 결합이 가능하다는 것이 제안된 2.4 kbit/s 다중모드 부호화기의 장점이다. 제안된 방법의 2.4kbit/s 다중모드 부호화기는 미국 연방 표준부호화기인 2.4 kbit/s MELP(Mixed Excitation Linear Prediction) 부호화기보다 더 좋은 성능을 나타낸다.

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF