• Title/Summary/Keyword: 음성다중

Search Result 350, Processing Time 0.028 seconds

Authentication Performance Optimization for Smart-phone based Multimodal Biometrics (스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구)

  • Moon, Hyeon-Joon;Lee, Min-Hyung;Jeong, Kang-Hun
    • Journal of Digital Convergence
    • /
    • v.13 no.6
    • /
    • pp.151-156
    • /
    • 2015
  • In this paper, we have proposed personal multimodal biometric authentication system based on face detection, recognition and speaker verification for smart-phone environment. Proposed system detect the face with Modified Census Transform algorithm then find the eye position in the face by using gabor filter and k-means algorithm. Perform preprocessing on the detected face and eye position, then we recognize with Linear Discriminant Analysis algorithm. Afterward in speaker verification process, we extract the feature from the end point of the speech data and Mel Frequency Cepstral Coefficient. We verified the speaker through Dynamic Time Warping algorithm because the speech feature changes in real-time. The proposed multimodal biometric system is to fuse the face and speech feature (to optimize the internal operation by integer representation) for smart-phone based real-time face detection, recognition and speaker verification. As mentioned the multimodal biometric system could form the reliable system by estimating the reasonable performance.

Performance Analysis of Layered Cell Protocol for the Integrated Traffic of Packetized Voice and Low Bit-rate Data (패킷화된 음성과 저속의 데이터가 혼합된 트래픽을 위한 Layered Cell 프로토콜의 성능해석)

  • 이영교;박기식;정해원;조성준
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.24 no.7A
    • /
    • pp.964-972
    • /
    • 1999
  • In this paper, we proposed a simulation model to which apply the AAL 2 (AAL type 2) between BSC and MSC in the cellular mobile communication systems. We suggested the frame structure of processing the packets of short length and the scheme which multiplex to one or more ATM cell. Also, we analyzed the performance of the APR, transmission delay, and channel transmission efficiency used in the packetized voice traffic and the low bit-rate data traffic such as fax. From the simulation results, the maximum number of users are 47 users without using AAL 2 multiplexing, but the maximum number of users are 70 (Non-Overlapping scheme) users, 110 (Overlapping scheme) users, respectively. Thus, we knew that the Overlapping scheme is more efficient than the Non-Overlapping scheme. Finally, we showed that the optimum transmission buffer size is 4 ATM cells in the cellular communication systems with the bandwidth of 2 Mbps.

  • PDF

The Study on The Voice Channel Expansion Using Code Division Multiplexing (부호분할 다중화 기법을 이용한 음성 회선 확대 방안연구)

  • 권기형;진용옥
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.8A
    • /
    • pp.1206-1212
    • /
    • 2000
  • The subscriber loop subnet at domestic wired telephony networks uses one circuit per one subscriber and the transmission network subnet uses TDM that is composed to 30 voice channels and is assigned to 64kbps per one voice channel of 2.048Mbps in El. On the contrary, the subscriber networks for cellular networks is extent to channel capacity and make it efficiency use CDMA method but the transmission network is used to the same as telephony. In this paper, The subscriber loop at wired network also is shown to increasing effective and lower expensive using CDM.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Multi-resolution DenseNet based acoustic models for reverberant speech recognition (잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델)

  • Park, Sunchan;Jeong, Yongwon;Kim, Hyung Soon
    • Phonetics and Speech Sciences
    • /
    • v.10 no.1
    • /
    • pp.33-38
    • /
    • 2018
  • Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance results in image classification tasks, to improve the performance of reverberant speech recognition. The DenseNet enables the deep convolutional neural network (CNN) to be effectively trained by concatenating feature maps in each convolutional layer. In addition, we extend the concept of multi-resolution CNN to multi-resolution DenseNet for robust speech recognition in reverberant environments. We evaluate the performance of reverberant speech recognition on the single-channel ASR task in reverberant voice enhancement and recognition benchmark (REVERB) challenge 2014. According to the experimental results, the DenseNet-based acoustic models show better performance than do the conventional CNN-based ones, and the multi-resolution DenseNet provides additional performance improvement.

Real-time implementation of the G.728 speech codec using the Vincent6 DSP core (Vincent6 DSP코어를 이용한 G.728 음성 부호화기의 실시간 구현)

  • 성호상
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.131-135
    • /
    • 2000
  • 본 논문에서는 고성능 고정 소수점 DSP (Digital Signal Processor) 코어인 Vincent6 코어 [1]를 이용하여 ITU-T C.728 음성 부호화기를 실시간으로 구현하였다 G.728 은 16 kb/s전송률의 ITU-T표준 음성 부호화기이며, 입력신호는 8 kHz로 샘플링되며 샘플 당 16 bit 로 양자화된 PCM 신호이다. G.728 은 LD-CELP(Low Delay Code Excited Linear Prediction)라고도 하며, 알고리 듬 delay는 0.625ms 이다. Vincent6 DSP core 는 VLIW (Very-Long Instruction Word) 특성을 가지므로 다중 명령 (multiple instruction)을 수행할 수 있다 이를 위해서 G.728 annex G를 이용하여 고정 소숫점 연산으로 코드를 작성한 후, 이를 vincent6 어셈블리 코드로 구현하였다. 최종적으로 구현된 코드는 ITU-T 의 test vector 에 대 해 bit exact 한 결과를 보이며 34 MCPS (Million Cycles Per Second)의 계산량을 가지며 사용 메모리크기는 데이터 메모리가 약 9KByte, 프로그램 메모리가 약 57 KByte 이다.

  • PDF

Prosody Boundary Index Prediction Model for Continuous Speech Recognition and Speech Synthesis (연속음성 인식 및 합성을 위한 운율 경계강도 예측 모델)

  • 강평수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.99-102
    • /
    • 1998
  • 본 연구에서는 연속음 인식과 합성을 위한 경계강도 예측 모델을 제안한다. 운율 경계 강도는 음성 합성에서는 운율구 사이의 휴지기의 길이 조절로 합성음의 자연도에 기여를 하고 연속음 인식에서는 인식과정에서 나타나는 후보문장의 선별 과정에 특징변수가 되어 인식률 향상에 큰 역할을 한다. 음성학적으로 발화된 문장은 큰 경계 단위로 볼 때 운율구 형태로 이루어졌다고 볼 수 있으며 구의 경계는 문장의 문법적인 특징과 관련을 지을 수 있게 된다. 본 논문에서는 운율 경계 강도 수준을 4로 하고 문법적인 특징으로는 트리구조 방법으로 결정된 오른쪽 가지의 수식의 깊이(rd)와 link grammar방법으로 결정된 음절수(syl), 연결거리(torig)를 bigram 모형과 결합하여 운율적 경계 강도를 예측한다. 예측 모형으로는 다중 회귀 모형과 Marcov 모형을 제안한다. 이들 모형으로 낭독체 200 문장에 대해 실험한 결과 76%로 경계 강도를 예측할 수 있었다.

  • PDF

Environment Adaptation by Discriminative Noise Adaptive Training Methods (잡음적응 변별학습 방식을 이용한 환경적응)

  • Kang, Byung-Ok;Jung, Ho-Young;Lee, Yun-Keun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.397-398
    • /
    • 2007
  • 본 논문에서는 환경변화에 대해 강인하게 동작하는 음성인식 시스템을 위해 잡음적응 훈련과 변별학습 방식을 결합한 형태의 환경적응 방식을 제안한다. 다중환경 훈련과 잡음제거방식을 결합한 형태인 잡음적응 훈련 방식은 음성인식을 위한 MCE (Minimum Classification Error)의 목적과는 거리가 있고, 음성인식 시스템이 사용되는 모든 환경을 반영하는 것은 현실적으로 어렵다는 점에서 한계가 있다. 이에 잡음적응 훈련방식으로 훈련된 기본 음향모델을 목적환경에서 수집한 소량의 데이터를 이용한 변별학습을 통해 환경적응 모델로 변환함으로써 이러한 단점을 보완할 수 있는 잡음 적응 변별학습을 이용한 훈련방식을 제안한다.

  • PDF

A Study on Connected Word Recognition for the Implementation of a Real-Time Voice Dialing System (실시간 음성 다이얼링 시스템 구현을 위한 연결어 인식에 관한 연구)

  • 김천영;양진우;유형근;이형준;홍진우;이강성;안태옥
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.3
    • /
    • pp.13-25
    • /
    • 1993
  • 본 논문은 음성 다이얼링 시스템을 구현하기 위한 연결어 인식에 관한 연구이다. 적용된 인식 알고리즘은 기준패턴을 생성할 때 DMS 모델을 이용한 One-stage DMS/DP 알고리즘이고, 인식 대상어는 광운대학교 부서명 150 단어이다. 연결어 인식을 실시간으로 처리하기 위한 방법으로써 본 논문에서는 음절과 단어 단위의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20 구간의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20구간의 DMS 모델을 적용하였을 때 수행되었고, 이때 다중화자종속과 화자독립의 인식률은 각각 97.2%, 86.8%이다. 실험된 결과를 이용하여 음성 다이얼링 모델 시스템을 DSP 전용칩인 TMS320C30 프로세서를 내장한 DSP 보오드, 486 PC와 DIAL 모뎀을 이용해서 구현하였고, 전체 다이얼링 시간은 약 7~14초가 소요되었다.

  • PDF

Implementation of The Audio for HiMCS System (지능형 고품질 서비스를 위한 오디오 개발)

  • 송재종;이석필;장세진
    • Proceedings of the IEEK Conference
    • /
    • 2003.11a
    • /
    • pp.77-80
    • /
    • 2003
  • 본 논문에서는 디지털방송과 인터넷의 융합에 따른 MPEG-2/4/7 방송 및 인터넷 콘텐츠를 비롯한 게임등과 같은 다양한 멀티미디어 서비스를 제공하기 위한 차세대 지능형 고품질 홈 엔터테인먼트 시스템 Platform 개발에서 사용될 MPEG-4 오디오를 개발한다. 인터넷 상에서의 스트리밍 서비스를 위해서는 저 전송률과 고 품질의 비디오/오디오 알고리즘이 필요하다. 이러한 서비스를 제공하기 위하여 MPEG-4 오디오는 음성에서 고품질의 다중 채널의 오디오까지, 그리고 자연음(Natural Sound)에서 합성음에 이르기까지 다양한 알고리즘을 제공한다. 본 논문에서는 지능형 고품질 미디어 에이전트 시스템에 적합한 MPEG-4 AAC, MPEG-1 Layer-3인 MP3, G.723.1을 구현하고, 이 시스템에 알맞은 7㎑ 대역폭을 가지는 광대역(Wideband) 음성신호를 16kbps로 압축하는 음성 압축기를 제안 및 개발한다.

  • PDF