• Title/Summary/Keyword: 화자 검출

Search Result 112, Processing Time 0.028 seconds

Face Detection based Real-time Eye Gaze Correction Method Using a Depth Camera (거리 카메라를 이용한 얼굴 검출 기반 실시간 시선 보정 방법)

  • Jo, Hoon;Ra, Moon-Soo;Kim, Whoi-Yul;Kim, Deuk-Hwa
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.11a
    • /
    • pp.151-154
    • /
    • 2012
  • 본 논문에서는 화상통신의 현실감을 증진시킬 수 있는 화자 간 시선 맞춤 시스템을 제안한다. 제안하는 방법은 Kinect 거리 카메라로부터 입력된 영상에서 화자의 얼굴 영역을 획득하여 화자의 시선이 카메라를 응시하도록 획득한 영역을 변환한 후에 원본 영상과 합성한다. Kinect 거리 카메라에서 획득한 얼굴 영역에는 다양한 형태의 잡음이 많아 미디언 필터와 모폴로지 연산을 통해 얼굴 영역의 잡음을 제거한다. 화자의 위치에 상관 없이 화자가 카메라를 응시하는 영상을 생성하기 위해서 Kinect 가 제공하는 거리 정보를 이용하여 시선 보정 각도와 회전 축을 획득한다. 시선이 보정된 얼굴 영역은 원본 영상에서 존재하지 않는 영역을 포함하고 있기 때문에, 원본 영상의 각 화소를 삼각형 메쉬로 구성한 후 해당 영역을 보간하여 최종적으로 시선이 보정된 영상을 생성한다. 제안하는 방법은 시선 맞춤 영상을 생성하는 데 필수적인 눈과 주변 얼굴 영역만 선택해서 변환하므로 영상의 왜곡이 적고 실시간 처리가 가능하다는 장점이 있다. 또한 카메라와 화자 사이의 거리 정보를 이용해 화자의 위치에 적응적인 시선 맞춤 영상을 생성할 수 있다. 실험을 통해 Intel i5 CPU 를 장착한 PC에서 $320{\times}240$ 크기의 영상을 사용할 경우 초당 약 35 프레임의 보정된 영상을 생성하여 제안하는 방법이 실시간 처리가 가능하다는 것을 확인하였다.

  • PDF

A study on speech recognition using pitch detection in a car-noisy environment (자동차 환경에서 피치검출을 이용한 음성인식 연구)

  • Lee Jeong-gi;Yoo Bong-keun;Kim Hak-jin;Kim Soon-kyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.97-100
    • /
    • 1999
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입$\cdot$출력이 가능하도록 하였고, 남성과 여성을 구별하기 위하여 피치검출법을 사용하여 속도별로 구분하였다. 또한, band pass filter를 이용하여 자동으로 잡음하에서 정확하게 음성추간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 DMS(Dynaminc Multi-Section)[1]모델을 사용하려고, 음성의 특징 파라미터와 인식 알고리즘은 PLP 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 시내주행중인 자동차 환경에서 자주 사용되는 차량제어 명령어 30단어를 가지고 실험한 결과 40-80km에서 화자독립 남성 $96\%$, 여성 $94.4\%$ 화자종속일 때 남성 $97\%$, 여성 $95\%$의 인식률을 얻을수 있었고 남성과 여성을 구분하므로 써 인식률을 향상 시켰다.

  • PDF

A Video Encoding Mechanism Improving the Quality of Speaker Face Region on Video Telephony (화상 통화시 화자의 얼굴화질을 강화하는 동영상 부호화 기법)

  • 이승철;낭종호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10c
    • /
    • pp.157-159
    • /
    • 2003
  • 본 논문에서는 화상 통화를 위한 비디오 인코딩에서 화자의 얼굴 화질을 강화하여 인코딩 할 수 있는 동영상 인코딩 방법을 제안한다. 제안한 인코딩 방법에서는 이미지의 Cr 데이터 및 움직임벡터 정보를 이용하여 빠르게 화자 얼굴 영역을 검출하고, 이 영역에 대하여 선택적인 양자화를 통하여 상대적으로 많은 비트량을 할당하여 화자의 얼굴 화질을 상대적으로 강화한다. 이 방법을 H.263 인코더에 적용하는 경우 전체적으로 이런 방법을 적용하지 않았을 때와 비교하여 18% 정도의 추가적인 CPU 오버헤드가 필요하였지만, 얼굴 영역에 대하여서는 PSNR 3dB 정도의 화질이 개선될 수 있음을 실험을 통하여 증명하였다.

  • PDF

Enhancement of Authentication Performance based on Multimodal Biometrics for Android Platform (안드로이드 환경의 다중생체인식 기술을 응용한 인증 성능 개선 연구)

  • Choi, Sungpil;Jeong, Kanghun;Moon, Hyeonjoon
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.3
    • /
    • pp.302-308
    • /
    • 2013
  • In this research, we have explored personal authentication system through multimodal biometrics for mobile computing environment. We have selected face and speaker recognition for the implementation of multimodal biometrics system. For face recognition part, we detect the face with Modified Census Transform (MCT). Detected face is pre-processed through eye detection module based on k-means algorithm. Then we recognize the face with Principal Component Analysis (PCA) algorithm. For speaker recognition part, we extract features using the end-point of voice and the Mel Frequency Cepstral Coefficient (MFCC). Then we verify the speaker through Dynamic Time Warping (DTW) algorithm. Our proposed multimodal biometrics system shows improved verification rate through combining two different biometrics described above. We implement our proposed system based on Android environment using Galaxy S hoppin. Proposed system presents reduced false acceptance ratio (FAR) of 1.8% which shows improvement from single biometrics system using the face and the voice (presents 4.6% and 6.7% respectively).

Character-Based Video Summarization Using Speaker Identification (화자 인식을 통한 등장인물 기반의 비디오 요약)

  • Lee Soon-Tak;Kim Jong-Sung;Kang Chan-Mi;Baek Joong-Hwan
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.6 no.4
    • /
    • pp.163-168
    • /
    • 2005
  • In this paper, we propose a character-based summarization algorithm using speaker identification method from the dialog in video. First, we extract the dialog of shots containing characters' face and then, classify the scene according to actor/actress by performing speaker identification. The classifier is based on the GMM(Gaussian Mixture Model) using the 24 values of MFCC(Mel Frequency Cepstrum Coefficient). GMM is trained to recognize one actor/actress among four who are all trained by GMM. Our experiment result shows that GMM classifier obtains the error rate of 0.138 from our video data.

  • PDF

Speaker Adaptation Performance Evaluation in Keyword Spotting System (500단어급 핵심어 검출기에서 화자적응 성능 평가)

  • Seo Hyun-Chul;Lee Kyong-Rok;Kim Jin-Young;Choi Seung-Ho
    • MALSORI
    • /
    • no.43
    • /
    • pp.151-161
    • /
    • 2002
  • This study presents performance analysis results of speaker adaptation for keyword spotting system. In this paper, we implemented MLLR (Maximum Likelihood Linear Regression) method on our middle size vocabulary keyword spotting system. This system was developed for directory services of universities and colleges. The experimental results show that speaker adaptation reduces the false alarm rate to 1/3 with the preservation of the mis-detection ratio. This improvement is achieved when speaker adaptation is applied to not only keyword models but also non-keyword models.

  • PDF

A Study on Speaker Recognition using the Peak and valley pitch detection and the Fuzzy (국부 봉우리와 골에 의한 피치 검출과 퍼지를 이용한 화자 인식에 관한 연구)

  • 김연숙;김희주;김경재
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.1
    • /
    • pp.213-219
    • /
    • 2004
  • This paper proposes speaker recognition algorithm which includes the pitch parameter for the peak and valley. The time-frequency hybrid method for pitch extraction is valuable in that it can improve resolution in the time domain and accuracy in the frequency domain at the same time. It makes reference pattern using membership function and performs vocal track recognition of common character using fuzzy pattern matching in order to include time variation width for non-linear utterance for proposed method, speaker recognition experiments are carried out using vowels and number sounds.

A Study on Number sounds Speaker recognition using the Pitch detection and the Fuzzified pattern (피치 검출과 퍼지화 패턴을 이용한 숫자음 화자 인식에 관한 연구)

  • 김연숙;김희주;김경재
    • Journal of the Korea Society of Computer and Information
    • /
    • v.8 no.3
    • /
    • pp.73-79
    • /
    • 2003
  • This paper proposes speaker recognition algorithm which includes both the pitch detection and the fuzzified pattern matching. This study utilizes pitch pattern using a pitch and speech parameter uses binary spectrum. In this paper. makes reference pattern using fuzzy membership function in order to include time variation width for non-utterance time and performs vocal track recognition of common character using fuzzified pattern matching.

  • PDF

Performance Improvement of Double-talk Detector Using Normalized Error Signal Power (정규화된 오차신호 전력을 이용한 동시통화 검출기의 성능 개선)

  • Heo, Won-Chul;Bae, Keun-Sung
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.5C
    • /
    • pp.478-486
    • /
    • 2007
  • Double-talk detection errors can result in either large residual echo or distorting the near-end talker's input speech. Thus accurate double-talk detection is an important problem in the acoustic echo canceller to improve the speech quality. In the double-talk detection algorithm using a cross-correlation coefficient, double-talk detection errors can occur in the initial convergence period of an adaptive filter or in noisy environment since the cross-correlation coefficient becomes large in such situations. In this paper, we propose a new double-talk detection algorithm based on the cross-correlation method using a normalized error signal power to reduce the double-talk detection errors. The experimental results have shown the performance improvement of an acoustic echo canceller as well as the noise-robustness of the proposed double-talk detector.

Speech Feature based Double-talk Detector for Acoustic Echo Cancellation (반향제거를 위한 음성특징 기반의 동시통화 검출 기법)

  • Park, Jun-Eun;Lee, Yoon-Jae;Kim, Ki-Hyeon;Ko, Han-Seok
    • Journal of IKEEE
    • /
    • v.13 no.2
    • /
    • pp.132-139
    • /
    • 2009
  • In this paper, a speech feature based double-talk detector method is proposed for an acoustic echo cancellation in hands-free communication system. The double-talk detector is an important element, since it controls the update of the adaptive filter for an acoustic echo cancellation. In previous research, the double talk detector is considered in the signal processing stage without taking the speech characteristics into account. However, in the proposed method, speech features which are used for the speech recognition is used for the discriminative features between the far-end and near-end speech. We obtained a substantial improvement over the previous double-talk detector methods using the only signal in time domain.

  • PDF