• Title/Summary/Keyword: 화자 검출

Search Result 112, Processing Time 0.032 seconds

A Study on Detection of Accentual Phrase's Boundaries according to Reading Speeds (낭독속도에 따른 강세구 경계 검출에 관한 연구)

  • Ju Jangkyu;Lee Kiyoung;Song Minsuck
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.91-94
    • /
    • 2000
  • 최근 운율 구조와 문장구조 및 음운규칙과 관련 된 많은 언어학적 연구가 이루어져, 언어 이해 차원에서 의미 정보, 문장 구조 정보, discourse structure 등을 위한 운율 정보의 유용성이 입증되었으나, 이러한 결과가 최근의 음성인식 시스템에는 거의 적용되지 못하고 있다. 본 연구에서는 계층적인 방법을 기초로 하여 한국어의 연속음성으로부터 운율구를 검출하는 세그멘테이션법을 제안하였다. 우선, 입력된 음성으로부터 문장단위의 경계를 검출하기 위하여 휴지기를 이용하였으며 에너지, 휴지기의 지속시간 및 피치궤적을 참조하여 강세구의 경계를 검출하였다. 실험음성의 텍스트는 "만물상"이며, 남녀 각 2명의 표준어 화자가 빠른 속도와 보통 속도로 낭독한 음성데이터를 대상으로 비교하였다.

  • PDF

A New Pitch Detection Method in time-Frequency Domain (시간-주파수영역에서의 새로운 피치검출 방법)

  • 김종국;최호진;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.805-808
    • /
    • 2001
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하나 만일 음성신호의 기존주파수를 정확히 검출할 수 있다면 음성인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성합성 시에 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석시 피치에 동기 시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 따라서 제안한 논문에서는 시간영역처리에서 시간영역파형에서 먼저 성도성분이 제거된 성문특성 즉 피치주기 성분을 강조하기 위해 음성신호의 기울기를 이용한 Positive 센터 클리핑를 수행하고 주파수 영역에서는 원신호의 스펙트럼과 센터클립된 신호의 스펙트럼과의 Peak-Fiting을 수행하고 선형 인터폴래이션(스무딩)을 통해 평탄화된 스펙트럼을 얻었다. 결과적으로 유성음 구간과 음성이 변하는 전이구간에서 G-peak가 강조된 더욱 정확한 Pitch를 검출할 수 있었다.

  • PDF

A Study on the Robust Double Talk Detector for Acoustic Echo Cancellation System (음향반항 제거 시스템을 위한 강인한 동시통화 검출기에 관한 연구)

  • 백수진;박규식
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.2
    • /
    • pp.121-128
    • /
    • 2003
  • Acoustic Echo Cancellation(m) is very active research topic having many applications like teleconference and hands-free communication and it employs Double Talk Detector(DTD) to indicate whether the near-end speaker is active or not. However. the DTD is very sensitive to the variation of acoustical environment and it sometimes provides wrong information about the near-end speaker. In this paper, we are focusing on the development of robust DTD algorithm which is a basic building block for reliable AEC system. The proposed AEC system consists of delayless subband AEC and narrow-band DTD. Delayless subband AEC has proven to have excellent performance of echo cancellation with a low complexity and high convergence speed. In addition, it solves the signal delay problem in the existing subband AEC. On the other hand, the proposed narrowband DTD is operating on low frequency subband. It can take most advantages from the narrow subband such as a low computational complexity due to the down-sampling and the reliable DTD decision making procedure because of the low-frequency nature of the subband signal. From the simulation results of the proposed narrowband DTD and wideband DTD, we confirm that the proposed DTD outperforms the wideband DTD in a sense of removing possible false decision making about the near-end speaker activity.

A Study on Speech Recognition in a running automobile (주행중인 자동차 환경에서의 음성인식 연구)

  • 유봉근
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.47-50
    • /
    • 1998
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입,출력이 가능하도록 하며, band pass filter를 이용하여 잡음환경에서 자동으로 정확하게 음성구간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 Dynamic Multi-Section(DMS)[1] 모델을 사용하였고 차량의 속도에 따라 자동으로 잡음환경에 강인한 모델을 선택하도록 하였으며, 음성의 특징 파라미터와 인식 알고리즘은 Perceptual Linear Predictive(PLP) 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 주행중인 자동차 환경(30~70km/h)에서 자주 사용되는 차량제어 명령 33개에 대하여 화자독립 92.98%, 화자종속 94.44% 인식율을 구하였다. 또한 주행중인 차량에서 카폰, 핸드폰 사용으로 인한 사고를 줄이기 위하여 음성으로 전화를 걸 수 있도록 하는 Voice Dialing 기능도 구현하였다.

  • PDF

On a Template Extraction of phrase unit by Pitch Searching (피치 검색에 의한 Phrase 단위의 Template 추출에 관한 연구)

  • Kim JongKuk;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.77-80
    • /
    • 2004
  • 원화자로부터 목표 화자의 음성으로 변환을 위해서는 음운 및 피치변환이 이루어져야 한다. 원 음성과 목표 음성 신호 사이에 따른 발성길이, 크기 및 피치 등의 운율 특성은 화자의 개인성 및 발성문장의 의도를 나타내는 주요 역할을 한다. 본 논문에서는 음성 변환을 수행하기 위하여 발성된 음성의 강세구(phrase)단위의 피치 검출을 통하여 템플릿을 추출하는 방법을 제안한다. 우선 한국어의 운율구에 대한 정보가 필요한 것인지, 한국어는 어떤 운율 구조를 갖는지에 대하여 알아본다. 마지막으로 어떻게 연속음성으로부터 한국어에 적당한 운율구 단위를 나눌 것인지, 즉 자동 세그멘테이션 및 레이블링에 대하여 분석한다. 또한 논문에서는 한국어 문장음성의 운율구를 강세구와 억양구로 나누고 육안으로 표시한 운율구 단위를 기준으로 이 운율구 단위에 적합한 특징을 추출하여 패턴을 작성한다.

  • PDF

A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment (실시간 윈도우 환경에서 DMS 모델을 이용한 자동 음성 제어 시스템에 관한 연구)

  • 남동선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.361-364
    • /
    • 1998
  • 본 논문은 인식 속도의 개선을 위해 단어의 지속시간에 따라 Section의 수를 변경한 가변섹션 수 DMS모델을 사용한 실시간 인식 시스템을 연구하고 인식된 결과를 실제 수행하도록 하는 시스템을 구현하는 것이 목적이다. 이러한 윈도우 음성 제어 시스템 구현을 위해 음성의 자동 검출, 윈도우 제어 모듈 구현, 동적 모델 재구성을 이용하여 적용된 단어 단위인식 시스템의 단점을 장점으로 수용하는 시스템을 구현하였고 본 시스템의 이름은 “VocManagerII”라 명명하였다. 구현된 시스템의 성능 평가 결과 인식 및 제어 수행 속도는 1초이내에 이루어지며 인식율은 66개의 기본 명령어에 대하여 화자 종속 99.36%, 화자 독립 99.08%의 좋은 인식율을 보여 주었다.

  • PDF

Audio-Based Human-Robot Interaction Technology (오디오 기반 인간로봇 상호작용 기술)

  • Kwak, K.C.;Kim, H.J.;Bae, K.S.;Yoon, H.S.
    • Electronics and Telecommunications Trends
    • /
    • v.22 no.2 s.104
    • /
    • pp.31-37
    • /
    • 2007
  • 인간로봇 상호작용 기술(human-robot interaction)은 다양한 의사소통 채널인 로봇카메라, 마이크로폰, 기타 센서를 통해 인지 및 정서적으로 상호작용할 수 있도록 로봇시스템 및 상호작용 환경을 디자인하고 구현 및 평가하는 지능형 서비스 로봇의 핵심기술이다. 본 고에서는 오디오 기반 인간로봇 상호작용 기술 중에서 음원 추적(sound localization)과 화자인식(speaker recognition) 기술의 국내외 기술동향을 살펴보고 최근 ETRI 지능형로봇연구단에서 상용화를 추진중인 시청각 기반 음원 추적(audio visual sound localization)과 문장독립 화자인식(text-independent speaker recognition)기술들을 다룬다. 또한 이들 기술들을 가정환경에서 효과적으로 사용하기 위해 음성인식, 얼굴검출, 얼굴인식 등을 결합한 시나리오에 대해서 살펴본다.

Deep neural networks for speaker verification with short speech utterances (짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망)

  • Yang, IL-Ho;Heo, Hee-Soo;Yoon, Sung-Hyun;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.6
    • /
    • pp.501-509
    • /
    • 2016
  • We propose a method to improve the robustness of speaker verification on short test utterances. The accuracy of the state-of-the-art i-vector/probabilistic linear discriminant analysis systems can be degraded when testing utterance durations are short. The proposed method compensates for utterance variations of short test feature vectors using deep neural networks. We design three different types of DNN (Deep Neural Network) structures which are trained with different target output vectors. Each DNN is trained to minimize the discrepancy between the feed-forwarded output of a given short utterance feature and its original long utterance feature. We use short 2-10 s condition of the NIST (National Institute of Standards Technology, U.S.) 2008 SRE (Speaker Recognition Evaluation) corpus to evaluate the method. The experimental results show that the proposed method reduces the minimum detection cost relative to the baseline system.

Subband Acoustic Echo Canceller with Double-Talk Detector Using Weighted Overlap-add Method and Dedicated filter (동시 통화검출 전용필터와 가중 Overlap-Add 기법을 적용한 서브밴드 음향 반향 제거기)

  • 고충기;이원철;이충용
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.8
    • /
    • pp.35-46
    • /
    • 2000
  • In this paper, we propose a subband acoustic echo canceller using the weighted Overlap-add adaptive filter bank to prevent the decrease of convergence speed in full-band US processing, and make it possible to realize the adaptive filter in block-parallel processing, this paper introduces the weighted overlap-add technique for subband echo canceller. Moreover, we propose a new double-talk detector which employs dedicated filter in addition to the energy comparison method simultaneously. The computer simulation results show that the performance of the proposed subband adaptive echo canceller double-talk detection

  • PDF

Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System (가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델)

  • Kim, Min-Je;Lee, Jung-Chul
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.7
    • /
    • pp.319-324
    • /
    • 2006
  • We Propose two new methods for non-keyword modeling to improve the performance of speaker- and vocabulary-independent keyword spotting system. The first method is decision tree clustering of monophone at the state level instead of monophone clustering method based on K-means algorithm. The second method is multi-state multiple mixture modeling at the syllable level rather than single state multiple mixture model for the non-keyword. To evaluate our method, we used the ETRI speech DB for training and keyword spotting test (closed test) . We also conduct an open test to spot 100 keywords with 400 sentences uttered by 4 speakers in an of fce environment. The experimental results showed that the decision tree-based state clustering method improve 28%/29% (closed/open test) than the monophone clustering method based K-means algorithm in keyword spotting. And multi-state non-keyword modeling at the syllable level improve 22%/2% (closed/open test) than single state model for the non-keyword. These results show that two proposed methods achieve the improvement of keyword spotting performance.