• Title/Summary/Keyword: 김화자

Search Result 184, Processing Time 0.029 seconds

Double Compensation Framework Based on GMM For Speaker Recognition (화자 인식을 위한 GMM기반의 이중 보상 구조)

  • Kim Yu-Jin;Chung Jae-Ho
    • MALSORI
    • /
    • no.45
    • /
    • pp.93-105
    • /
    • 2003
  • In this paper, we present a single framework based on GMM for speaker recognition. The proposed framework can simultaneously minimize environmental variations on mismatched conditions and adapt the bias free and speaker-dependent characteristics of claimant utterances to the background GMM to create a speaker model. We compare the closed-set speaker identification for conventional method and the proposed method both on TIMIT and NTIMIT. In the several sets of experiments we show the improved recognition rates on a simulated channel and a telephone channel condition by 7.2% and 27.4% respectively.

  • PDF

A Crowd Noise Reduction Model for Speech Signal processing (음성 신호처리를 위한 군중잡음 제거 모델)

  • 안용운;김중환;김상철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.502-504
    • /
    • 2002
  • 군중잡음(crowd noise)이 발생하는 환경에서 음성 통화 및 화자 인식을 할 때에는 음성에 파열음이나 마찰음과 같은 유색잡음(colored noise)이 부가되어 원래 음성이 왜곡된다. 이와 같이 왜곡된 음성 신호를 처리할 때에는 군중잡음을 제거하는 과정이 반드시 필요하다. 본 논문에서는 군중잡음의 특성을 분석하고, 그 결과를 이용하여 음성 신호처리 시에 효과적으로 군중잡음만을 제거할 수 있는 모델을 제안한다. 제안된 모델은 시간 영역에서는 침묵 구간을 검출하여 마찰음과 파열음을 제거하는 과정과 주파수 영역에서는 잡음 평균을 생성하고 이를 이용한 스펙트럼 차감법(spectral subtraction)으로 군중 잡음을 제거하는 과정으로 이루어진다.

  • PDF

시청각 기반 HRI 컴포넌트 상용화 서비스 현장 성능 평가 및 환경분석

  • Ji, Su-Yeong;Kim, Hye-Jin;Kim, Do-Hyeong;Yun, Ho-Seop
    • Information and Communications Magazine
    • /
    • v.25 no.4
    • /
    • pp.16-21
    • /
    • 2008
  • 본고에서는 지능형 서비스 로봇의 상용화 단계에서 가장 현실적으로 적용 가능한 대표적인 HRI기술(얼굴검출, 화자 성별구별, 음원추적)에 대하여 상용화 서비스 현장에서의 성능평가 결과를 제공하고, 현장을 분석하여 사용자에게 가이드라인을 제공함과 동시에 최적의 상용화 서비스 제공을 위한 사용자와 로봇간 HRI 기준 및, 공공로봇 플랫폼 적용을 통한 로봇 서비스의 Needs 파악과 상품기획력의 극대화를 목적으로 성능평가에 따른 환경분석을 제안한다.

A Study on Improvement of Speech Recognition by Fuzzy Smoothing (퍼지 스무딩을 이용한 향상된 음성인식)

  • Kim Dae-Su;Kim Chong-Kyo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.13-16
    • /
    • 1999
  • 이산 HMM을 이용한 음성인식을 할 때, 관측심볼은 훈련 데이터의 양자화과정을 수행하여 얻게 된다. 훈련 데이터는 선정된 몇몇 화자에 의해서 얻어지게 되는데, 이러한 이유로 인하여 충분하지 못한 훈련 데이터가 얻어지므로, 관측 심볼에 따라 출력확률분포값이 영(zero)이나, 거의 영에 가까운 값을 가지게 된다. 이러한 요인은 인식률의 저하를 초래하므로, 본 논문에서는 fuzzy smoothing 기법을 채택하여, 출력확률분포값이 영(zero)의 값을 가지는 것을 방지하여, 새로 구해진 파라메터로 인식실험을 하였다. Smoothing과정을 수행한 후의 인식률이 smoothing을 하진 않은 인식율에 비해 평균 $1.46\%$ 향상되었다.

  • PDF

A Study on Sound Source Localization Using a Microphone Array (마이크로폰 배열 구조를 이용한 음원의 위치 측정에 관한 연구)

  • Kim, Jin-Sung;Kim, Do-Yoon;You, Bum-Jae;Kim, Kwang-Bae
    • Proceedings of the KIEE Conference
    • /
    • 2005.07d
    • /
    • pp.2753-2755
    • /
    • 2005
  • 최근 들어 공장에서만 사용되는 로봇을 탈피하여, 사람과 함께 생활하면서 서비스를 제공할 수 있는 인간 친화적인 로봇이 전 세계적으로 개발되고 있다. 인간과 자연스런 상호작용을 위하여, 화자를 바라보고, 깨끗한 음성신호를 얻는 과정에서 음원의 위치 추적은 필연적이다. 본 연구는 마이크로폰에 도달되는 동일 신호의 도착시간지연(Time Delay of Arrival)정보를 이용하여, 음원 위치를 구하는 기존의 수학적인 방법론[1]을 소개하고 검토한다. 모의실험을 통하여, 방법론[1]이 허상음원을 생성하는 음원 위치 측정임을 보인다.

  • PDF

An Experimental Speech Translation System for Hotel Reservation (호텔예약을 위한 자동통역 시스템)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF

A Case of Acute Pancreatitis Complicated with Allergic Purpura (Allergic Purpura에 합병된 Acute Pancreatitis 1례)

  • Lee, Sung-Chul;Kim, Hwa-Ja;Tchah, Hann;Park, Ho-Jin
    • Pediatric Gastroenterology, Hepatology & Nutrition
    • /
    • v.2 no.1
    • /
    • pp.116-122
    • /
    • 1999
  • Allergic (Henoch-Schonlein) purpura is a nonthrombocytopenic purpura that affects small nonmuscular vessels with involvement of skin, gastrointestinal tract, joint, and kidney. Pancreatitis has rarely been reported as a complication of H-S purpura. In 1965, hemorrhagic pancreatitis as a complication of H-S purpura was reported by Toskin. We experienced one case of pancreatitis complicated with H-S purpura: pancreatic head enlargement was noted in small bowel series and abdominal sonogram with increased serum amylase level (160 U/dL) in a 6-year-old female child who complained of abdominal pain, vomiting, bloody stool, and petechiae on lower extremities.

  • PDF

A Study on Regression Class Generation of MLLR Adaptation Using State Level Sharing (상태레벨 공유를 이용한 MLLR 적응화의 회귀클래스 생성에 관한 연구)

  • 오세진;성우창;김광동;노덕규;송민규;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.8
    • /
    • pp.727-739
    • /
    • 2003
  • In this paper, we propose a generation method of regression classes for adaptation in the HM-Net (Hidden Markov Network) system. The MLLR (Maximum Likelihood Linear Regression) adaptation approach is applied to the HM-Net speech recognition system for expressing the characteristics of speaker effectively and the use of HM-Net in various tasks. For the state level sharing, the context domain state splitting of PDT-SSS (Phonetic Decision Tree-based Successive State Splitting) algorithm, which has the contextual and time domain clustering, is adopted. In each state of contextual domain, the desired phoneme classes are determined by splitting the context information (classes) including target speaker's speech data. The number of adaptation parameters, such as means and variances, is autonomously controlled by contextual domain state splitting of PDT-SSS, depending on the context information and the amount of adaptation utterances from a new speaker. The experiments are performed to verify the effectiveness of the proposed method on the KLE (The center for Korean Language Engineering) 452 data and YNU (Yeungnam Dniv) 200 data. The experimental results show that the accuracies of phone, word, and sentence recognition system increased by 34∼37%, 9%, and 20%, respectively, Compared with performance according to the length of adaptation utterances, the performance are also significantly improved even in short adaptation utterances. Therefore, we can argue that the proposed regression class method is well applied to HM-Net speech recognition system employing MLLR speaker adaptation.

A Study on the Development of Embedded Serial Multi-modal Biometrics Recognition System (임베디드 직렬 다중 생체 인식 시스템 개발에 관한 연구)

  • Kim, Joeng-Hoon;Kwon, Soon-Ryang
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.1
    • /
    • pp.49-54
    • /
    • 2006
  • The recent fingerprint recognition system has unstable factors, such as copy of fingerprint patterns and hacking of fingerprint feature point, which mali cause significant system error. Thus, in this research, we used the fingerprint as the main recognition device and then implemented the multi-biometric recognition system in serial using the speech recognition which has been widely used recently. As a multi-biometric recognition system, once the speech is successfully recognized, the fingerprint recognition process is run. In addition, speaker-dependent DTW(Dynamic Time Warping) algorithm is used among existing speech recognition algorithms (VQ, DTW, HMM, NN) for effective real-time process while KSOM (Kohonen Self-Organizing feature Map) algorithm, which is the artificial intelligence method, is applied for the fingerprint recognition system because of its calculation amount. The experiment of multi-biometric recognition system implemented in this research showed 2 to $7\%$ lower FRR (False Rejection Ratio) than single recognition systems using each fingerprints or voice, but zero FAR (False Acceptance Ratio), which is the most important factor in the recognition system. Moreover, there is almost no difference in the recognition time(average 1.5 seconds) comparing with other existing single biometric recognition systems; therefore, it is proved that the multi-biometric recognition system implemented is more efficient security system than single recognition systems based on various experiments.

Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum (켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법)

  • 김유진;정혜경;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.4
    • /
    • pp.361-373
    • /
    • 2002
  • In this paper, we propose a channel normalization method to improve the performance of CMS (cepstral mean subtraction) which is widely adopted to normalize a channel variation for speech and speaker recognition. CMS which estimates the channel effects by averaging long-term cepstrum has a weak point that the estimated channel is biased by the formants of voiced speech which include a useful speech information. The proposed Formant-broadened Cepstral Mean Subtraction (FBCMS) is based on the facts that the formants can be found easily in log spectrum which is transformed from the cepstrum by fourier transform and the formants correspond to the dominant poles of all-pole model which is usually modeled vocal tract. The FBCMS evaluates only poles to be broadened from the log spectrum without polynomial factorization and makes a formant-broadened cepstrum by broadening the bandwidths of formant poles. We can estimate the channel cepstrum effectively by averaging formant-broadened cepstral coefficients. We performed the experiments to compare FBCMS with CMS, PFCMS using 4 simulated telephone channels. In the experiment of channel estimation, we evaluated the distance cepstrum of real channel from the cepstrum of estimated channel and found that we were able to get the mean cepstrum closer to the channel cepstrum due to an softening the bias of mean cepstrum to speech. In the experiment of text-independent speaker identification, we showed the result that the proposed method was superior than the conventional CMS and comparable to the pole-filtered CMS. Consequently, we showed the proposed method was efficiently able to normalize the channel variation based on the conventional CMS.