• Title/Summary/Keyword: 화자 검출

Search Result 112, Processing Time 0.026 seconds

A study on the Speaker Recognition using the Pitch (피치계수를 이용한 화자인식에 관한 연구)

  • 김에녹
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.4
    • /
    • pp.471-480
    • /
    • 2001
  • In this thesis, we perform the experiment of speaker recognition by identifying vowels in the pronunciation of each speaker using Adaptive Resource Theory 2(ART2) model. The 5 adult males and 5 adult females pronounce from 0 to 9 digits. We extract the vowels from the pronunciation of each speaker first, we are extracted characteristic coefficient through a pitch detection algorithm, a LPC analysis, and a LPC cepstral analysis to generate an input pattern of ART2. The experimental results showed that pitch coefficients are somewhat more enhanced than LPC or LPC cepstral coefficient.

  • PDF

Authentication Performance Optimization for Smart-phone based Multimodal Biometrics (스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구)

  • Moon, Hyeon-Joon;Lee, Min-Hyung;Jeong, Kang-Hun
    • Journal of Digital Convergence
    • /
    • v.13 no.6
    • /
    • pp.151-156
    • /
    • 2015
  • In this paper, we have proposed personal multimodal biometric authentication system based on face detection, recognition and speaker verification for smart-phone environment. Proposed system detect the face with Modified Census Transform algorithm then find the eye position in the face by using gabor filter and k-means algorithm. Perform preprocessing on the detected face and eye position, then we recognize with Linear Discriminant Analysis algorithm. Afterward in speaker verification process, we extract the feature from the end point of the speech data and Mel Frequency Cepstral Coefficient. We verified the speaker through Dynamic Time Warping algorithm because the speech feature changes in real-time. The proposed multimodal biometric system is to fuse the face and speech feature (to optimize the internal operation by integer representation) for smart-phone based real-time face detection, recognition and speaker verification. As mentioned the multimodal biometric system could form the reliable system by estimating the reasonable performance.

The Implementation of Windows 95 Control System with Speech Recognition (음성인식을 이용한 Windows 95 제어 시스템의 구현)

  • 남동선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.43-46
    • /
    • 1998
  • 본 논문은 컴퓨터 사용에 미숙한 초보자나 키보드나 마우스를 사용할 수 없는 신체적인 조건을 가진 장애인 또는 PC사용에 미숙한 사용자들을 위해 기존의 인터페이스에 추가적으로 음성을 사용하여 더 효율적인 작업 환경을 만들기 위한 음성을 이용한 Window95 환경에서의 음성 인식 시스템 구현에 관한 것이다. 인터페이스 구현을 위해 사용되는 인식 알고리즘으로는 연결어 인식에 사용되는 OSDP[1] 알고리즘을 단독어 인식에 적용하여 사용하였다. 특징 벡터는 화자 독립적인 특성을 지닌 Perceptual Linear Predictive(PLP)[2] 13차 계수를 사용하였다. 인식 대상 어휘는 윈도우 사용자에게 자주 사용되는 60개의 명령어로 설정하였다. 인식된 후 그 결과는 구현된 시스템의 명령 실행 모듈로 전달되어 윈도우 상에서 실제 수행된다. 구현된 시스템에서는 노트북 내장 마이크를 사용하여 음성을 검출하였고 이를 위한 음성 구간 검출 알고리즘을 사용하였다. 기준 패턴은 20대 남성화자 9인이 2회 발성한 데이터를 이용하였고, 화자 독립으로 온라인 인식률은 91.71%이고, 오프라인 인식률은 96.4%의 인식률을 얻었다.

  • PDF

A Study on Korean and English Speaker Recognitions using the Fuzzy Theory (퍼지 이론을 이용한 한국어 및 영어 화자 인식에 관한 연구)

  • 김연숙;김희주;김경재
    • Journal of the Korea Society of Computer and Information
    • /
    • v.7 no.3
    • /
    • pp.49-55
    • /
    • 2002
  • This paper proposes speaker recognition algorithm which includes both the pitch parameter and the fuzzy. This study proposes a pitch detection method for the peak and valley pitch detection function by means of comparing spectra which utilizes the transform characteristics between time and frequency. It measures the similarity to the original spectrum while arbitrarily varying the period in the time domain. It heavily weights the error due to the changing characteristics of the phonemes, while it is strong against noise. In this paper, makes reference pattern using membership function and performs vocal track recognition of common character using fuzzy pattern matching in odor to include time variation width for non-linear utterance time.

  • PDF

A Study on Korean and Japanese Speaker Recognitions using the Fuzzy Theory (퍼지 이론을 이용한 한국어 및 일어 화자 인식에 관한 연구)

  • 김연숙;김창완
    • Journal of the Korea Society of Computer and Information
    • /
    • v.5 no.3
    • /
    • pp.51-57
    • /
    • 2000
  • This paper proposes speaker recognition algorithm which includes both the pitch and the fuzzy. This study proposes a pitch detection method for the peak and valley pitch detection function by means of comparing spectra which utilizes the transform characteristics between time and frequency. It measures the similarity to the original spectrum while arbitrarily varying the period in the time domain. It heavily weights the error due to the changing characteristics of the phonemes, while it is strong against noise. In this paper, makes reference pattern using membership function and performs vocal track recognition of common character using fuzzy pattern matching in order to include time variation width for non-linear utterance time.

  • PDF

Enhancement of Mobile Authentication System Performance based on Multimodal Biometrics (다중 생체인식 기반의 모바일 인증 시스템 성능 개선)

  • Jeong, Kanghun;Kim, Sanghoon;Moon, Hyeonjoon
    • Annual Conference of KIPS
    • /
    • 2013.05a
    • /
    • pp.342-345
    • /
    • 2013
  • 본 논문은 모바일 환경에서의 다중생체인식을 통한 개인인증 시스템을 제안한다. 다중생체인식을 위하여 얼굴인식과 화자인식을 선택하였으며, 시스템의 인식 시나리오는 다음을 따른다. 얼굴인식을 위하여 Modified census transform (MCT) 기반의 얼굴검출과 k-means 클러스터 분석 (cluster analysis) 알고리즘 기반의 눈 검출을 통해 얼굴영역 전처리를 수행하고, principal component analysis (PCA) 기반의 얼굴인증 시스템을 구현한다. 화자인식을 위하여 음성의 끝점 추출과 Mel frequency cepstral coefficient(MFCC) 특징을 추출하고, dynamic time warping (DTW) 기반의 화자 인증 시스템을 구현한다. 그리고 각각의 생체인식을 본 논문에서 제안된 방법을 기반으로 융합하여 인식률을 향상시킨다.

An Efficient Double-Talk Detection Algorithm Using Cross-Correlation Coefficients (상호상관계수를 이용한 효율적인 동시통합검출 알고리즘)

  • 조점군;박선준;이충용;윤대희
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.6B
    • /
    • pp.746-751
    • /
    • 2001
  • 일반적으로 음향 반향 제거기에서 적응필터의 안정성을 보장하기 위해서 동시통화 검출기(DTD)를 사용하여 원단화자 신호와 근단화자 신호의 존재 여부에 따라 적응필터 계수의 적응 여부를 결정한다. 본 논문에서는 두 개의 상호상관계수를 이용하여 계산량과 메모리 소자수 면에서 효율적인 동시통화 검출 알고리즘을 제안하였다. 제안된 알고리즘은 마이크로폰의 입력신호와 추정된 반향 신호간의 상호상관계수, 그리고 마이크로폰의 입력신호와 오차신호간의 상호상관계수를 이용하여, 주행 상황과 같이 심한 잡음 환경에서도 동시통화 구간의 시작점과 끝점 검출에 강인한 특성을 갖는다. 또한, 기존의 상호상관도를 이용하는 방법에 비하여 적은 양의 계산과 메모리를 필요로 하여 저가의 고정소수점 DSP를 이용한 실시간 구현에 적합하다. 성능 평가를 위하여 차내 핸즈프리 통신 환경에서 얻은 실측 데이터를 사용하여 기존의 방법과 비교하였다.

  • PDF

Localization of Multiple Speakers Using Microphone Array System (마이크로폰 어레이 시스템을 이용한 다화자 방향검지)

  • Hung, Vu Viet;Lee, Chang-Hoon
    • The Journal of Engineering Research
    • /
    • v.8 no.1
    • /
    • pp.59-65
    • /
    • 2006
  • 본 논문에서는 마이크로폰 어레이 시스템을 이용하여 여러 화자의 음성 정보로부터 각 화자가 위치한 방향을 추정하는 기술 개발 내용을 다룬다. 성능 향상을 위한 전처리 과정으로 비선형 증폭기를 사용하여 거리에 따른 영향을 최소화하는 과정과 잡음에 대한 강인성을 얻기 위해 음성활성 영역을 검출하는 과정을 포함한다. 등간격으로 배치된 마이크로폰 어레이 시스템의 기하학적 특성에 따른 음원의 위치와 신호의 지연시간차이와의 상관관계로부터 화자의 위치를 역으로 추정하는 알고리즘을 기본으로 하여 가능성 척도를 계산하고 이를 활용하여 가능성이 높은 것들을 클러스터링하여 가능성이 있는 후보를 선정하여 화자의 방향을 검지한다. 이 과정에서 오인식을 최소화하기 위하여 가능성이 희박한 영역에 대한 추정 억제 방법으로 부정식 추론법을 적용하였다. 2 화자의 음성 신호를 입력으로 한 실험을 통하여 제안한 방법에 의한 다화자 방향검지의 가능성을 알아보았다.

  • PDF

A Study on SVM-Based Speaker Classification Using GMM-supervector (GMM-supervector를 사용한 SVM 기반 화자분류에 대한 연구)

  • Lee, Kyong-Rok
    • Journal of IKEEE
    • /
    • v.24 no.4
    • /
    • pp.1022-1027
    • /
    • 2020
  • In this paper, SVM-based speaker classification is experimented with GMM-supervector. To create a speaker cluster, conventional speaker change detection is performed with the KL distance using the SNR-based weighting function. SVM-based speaker classification consists of two steps. In the first step, SVM-based classification between UBM and speaker models is performed, speaker information is indexed in each cluster, and then grouped by speaker. In the second step, the SVM-based classification between UBM and speaker models is performed by inputting the speaker cluster group. Linear and RBF are applied as kernel functions for SVM-based classification. As a result, in the first step, the case of applying the linear kernel showed better performance than RBF with 148 speaker clusters, MDR 0, FAR 47.3, and ER 50.7. The second step experiment result also showed the best performance with 109 speaker clusters, MDR 1.3, FAR 28.4, and ER 32.1 when the linear kernel was applied.

A Study on Isolated Words Speech Recognition in a Running Automobile (주행중인 자동차 환경에서의 고립단어 음성인식 연구)

  • 유봉근
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.381-384
    • /
    • 1998
  • 본 논문은 주행중인 자동차 환경에서 운전자의 안전성 및 편의성의 동시 확보를 위하여, 보조적인 스위치 조작없이 상시 음성의 입, 출력이 가능하도록 한다. 이때 잡음에 강인한 threshold 값을 구하기 위하여, 일정한 시간마다 기준 에너지와 영교차율(Zero Crossing Rate)을 변경하며, 밴드패스 필터(bandpass filter)를 이용하여 1차, 2차로 나누어 실시간 상태에서 자동으로, 정확하게 끝점검출(End Point Detection)을 처리한다. 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)을 사용하며, 화자의 변별력을 높이기 위하여 2개의 모델사용을 제안한다. 또한 주행중인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누며 차량의 가변잡음 크기에 따라 자동으로 선택하도록 한다. 음성의 특징 벡터와 인식 알고리즘은 PLP 13차와 One-Stage Dynamic Programming (OSDP)를 이용한다. 실험결과, 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시속 80Km/h 이상)에서 화자독립 89.75%, 화자종속 90.08%의 인식율을 구하였으며, 경부 고속도로에서는 화자독립 92.29%, 화자종속 92.42%의 인식율을 구하였다. 그리고 저속 주행중인 자동차 환경(80km/h 이내, 시멘트, 아스팔트 등의 서울시내 및 시외독립)에서는 화자독립 92.89%, 화자종속 94.44% 인식율을 구하였다.

  • PDF