• Title/Summary/Keyword: 김화자

Search Result 184, Processing Time 0.035 seconds

환경 변이에 강인한 화자 인식 기술

  • 김유진;정재호
    • Review of KIISC
    • /
    • v.12 no.2
    • /
    • pp.41-49
    • /
    • 2002
  • 음성 인식 기술과 뿌리를 공유하는 화자 인식 기술은 지난 수십 년간의 연구결과로 괄목할 만한 진보가 이루어졌으며 최근에는 일반화될 수 있으리라는 기대를 가지도록 하기에 충분했다. 하지만 이러한 기술이 실제 환경에 적용되었을 때, 발성 환경을 제어할 수 없으며 그 결과 훈련 환경과는 다른 환경에서 발성된 음성을 인식 해야하는 이른바 '불일치 조건(mismatch condition)' 현상이 발생하게된다. 초기에는 이 현상을 극복하기 위해 잡음 자체를 모델링하고 제거함으로써 훈련과 인식 환경의 차이를 일정하게 정규화(normalization)해주는 연구가 진행되었다. 하지만 최근에는 잡음에 의한 왜곡의 모델이 복잡하고 실제 인식 성능에 직접적으로 나타나지 않는 문제점을 추가로 극복하기 위해, 훈련과 인식 환경의 차이를 보상해주는(compensation) 연구가 활발히 진행되고 있다. 본 논문에서는 기본적인 화자인식기술과 함께 성능저하를 일으키는 불일치 요인들 및 그것들을 극복하기 위한 기술들을 소개하고자 한다.

세대간 장단 차이에 따른 운율 변화 연구

  • 김선주
    • Proceedings of the KSPS conference
    • /
    • 2000.03a
    • /
    • pp.198-204
    • /
    • 2000
  • 본 연구는 한국어에서 의미를 분화시키는 기능을 담당해오던 장/단의 상실로 인해 운율자질들에 어떠한 변화가 일어났는지 알아보는 것을 목적으로 한다. 먼저 길이의 대립적 기능의 소실로 인해 젊은 세대에서 액센트를 구성하는 길이의 기능이 상실되고 있지는 않는지 알아보았다. 이와 더블어 길이, 세기, 고저의 운율행동 양상이 세대간에 차이를 보이는지 살펴보았다. 실험은 장/단의 변별력을 지니는 60대 화자와 변별력을 상실한 20대 화자를 비교하여, 운율자질들의 수치를 측정하고 높은 수치의 음절 위치를 기술하였다. 실험결과 두 세대 모두에서 길이는 상대적 돋들림을 보여 액센트를 결정하는 자질의 역할을 하는 것으로 나타났다. 그러나 운율자질들의 성격에 있어서는 세대간에 차이를 보였는데, 길이에 있어서는 60대에 비해서 20대의 돋들리는 정도가 줄어든 것을 볼 수 있었다. 또 세기와 고저는 60대 화자들에게서는 이렇다할 경향성을 발견할 수 없었지만 20대화자들에서는 2번째 음절의 수치가 고정적으로 높아지는 일정할 경향을 발견할 수 있었다.

  • PDF

Spatial Speaker Localization for a Humanoid Robot (휴머노이드 로봇을 위한 공간상의 화자 위치 측정)

  • Kim, Jin-Sung;Kim, Ui-Hyun;Kim, Do-Ik;You, Bum-Jae
    • Proceedings of the KIEE Conference
    • /
    • 2008.07a
    • /
    • pp.1795-1796
    • /
    • 2008
  • 과학기술의 발전과 함께 인간형 서비스 로봇에 대한 관심이 고조되고 있다. 서비스 로봇의 핵심 중의 하나는 인간과의 상호작용이라 할 수 있다. 자연스러운 상호작용을 위하여, 화자를 바라보고, 깨끗한 음성신호를 얻는 과정에서 음원의 위치 측정은 필연적이다. 본 논문은 마이크로폰에 도달되는 동일 신호의 도착시간지연(Time Delay of Arrival: TDOA) 특성 행렬을 정의하고, 이를 이용하여 공간상의 화자 위치 측정 방법론을 제안하였다. 휴머노이드 로봇의 머리에 마이크로폰 배열을 구성하였고, 실제 시스템을 통한 실험을 통하여 방향 검지 및 높이 구분을 실행하였다.

  • PDF

Speech Enhancement using Adaptive Matched Filter Microphone Array (적응 정합 필터 마이크로폰 어레이를 이용한 음질 향상)

  • Lee Oe-Hyung;Choi Young-Keun;Kim Ki-Man;Park Kyu-Sik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.205-208
    • /
    • 2002
  • 최근 영상 회의 시스템에서 화자 위치 추정 및 음질 향상 기술이 연구되고 있다. 이 시스템에서는 마이크로폰 어레이를 이용하여, 화자의 위치를 파악하여 화자의 방향으로 카메라를 자동으로 조정해 주고 그 방향으로부터 입사되는 신호만을 수신할 수 있도록 한다. 이를 위해 마이크로폰 어레이가 연구되어져 왔다. 덜 연구에서는 시간에 따라 변화하는 음향 환경에 적응하는 적응 정합 필터 마이크로폰 어레이를 제안하고, 실험을 통해 그 성능을 고찰하였다.

  • PDF

Implementation of Speech Enhancement System using Matched Filter Array (Matched filter Array를 이용한 음질 향상 시스템 구현)

  • 오승수;김기만
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1999.11a
    • /
    • pp.173-176
    • /
    • 1999
  • Recently, speaker localizing estimation technique has been rising in teleconference systems. In this system, it is recognized speaker location using microphone array and camera is directed to speaker location automatically. In this paper, it was described to be able to enhance the speech qualify through microphone array, decrease computational loads using IIR filter as inverse filter, and confirmed to implement hardware using DSP processor.

  • PDF

Conversation Context Annotation using Speaker Detection (화자인식을 이용한 대화 상황정보 어노테이션)

  • Park, Seung-Bo;Kim, Yoo-Won;Jo, Geun-Sik
    • Journal of Korea Multimedia Society
    • /
    • v.12 no.9
    • /
    • pp.1252-1261
    • /
    • 2009
  • One notable challenge in video searching and summarizing is extracting semantic from video contents and annotating context for video contents. Video semantic or context could be obtained by two methods to extract objects and contexts between objects from video. However, the method that use just to extracts objects do not express enough semantic for shot or scene as it does not describe relation and interaction between objects. To be more effective, after extracting some objects, context like relation and interaction between objects needs to be extracted from conversation situation. This paper is a study for how to detect speaker and how to compose context for talking to annotate conversation context. For this, based on this study, we proposed the methods that characters are recognized through face recognition technology, speaker is detected through mouth motion, conversation context is extracted using the rule that is composed of speaker existing, the number of characters and subtitles existing and, finally, scene context is changed to xml file and saved.

  • PDF

Local Distribution Based Density Clustering for Speaker Diarization (화자분할을 위한 지역적 특성 기반 밀도 클러스터링)

  • Rho, Jinsang;Shon, Suwon;Kim, Sung Soo;Lee, Jae-Won;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.34 no.4
    • /
    • pp.303-309
    • /
    • 2015
  • Speaker diarization is the task of determining the speakers for unlabeled data, and DBSCAN (Density-Based Spatial Clustering of Applications with Noise) has been widely used in the field of speaker diarization for its simplicity and computational efficiency. One challenging issue, however, is that if different clusters in non-spatial dataset are adjacent to each other, over-clustering may occur which subsequently degrades the performance of DBSCAN. In this paper, we identify the drawbacks of DBSCAN and propose a new density clustering algorithm based on local distribution property around object. Variable density criterions for local density and spreadness of object are used for effective data clustering. We compare the proposed algorithm to DBSCAN in terms of clustering accuracy. Experimental results confirm that the proposed algorithm exhibits higher accuracy than DBSCAN without over-clustering and confirm that the new approach based on local density and object spreadness is efficient.

Performance Improvement of Speaker Recognition by MCE-based Score Combination of Multiple Feature Parameters (MCE기반의 다중 특징 파라미터 스코어의 결합을 통한 화자인식 성능 향상)

  • Kang, Ji Hoon;Kim, Bo Ram;Kim, Kyu Young;Lee, Sang Hoon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.21 no.6
    • /
    • pp.679-686
    • /
    • 2020
  • In this thesis, an enhanced method for the feature extraction of vocal source signals and score combination using an MCE-Based weight estimation of the score of multiple feature vectors are proposed for the performance improvement of speaker recognition systems. The proposed feature vector is composed of perceptual linear predictive cepstral coefficients, skewness, and kurtosis extracted with lowpass filtered glottal flow signals to eliminate the flat spectrum region, which is a meaningless information section. The proposed feature was used to improve the conventional speaker recognition system utilizing the mel-frequency cepstral coefficients and the perceptual linear predictive cepstral coefficients extracted with the speech signals and Gaussian mixture models. In addition, to increase the reliability of the estimated scores, instead of estimating the weight using the probability distribution of the convectional score, the scores evaluated by the conventional vocal tract, and the proposed feature are fused by the MCE-Based score combination method to find the optimal speaker. The experimental results showed that the proposed feature vectors contained valid information to recognize the speaker. In addition, when speaker recognition is performed by combining the MCE-based multiple feature parameter scores, the recognition system outperformed the conventional one, particularly in low Gaussian mixture cases.

Voice Dialing System using Speaker Dependent Recognition for Korean Digit Speech (화자 종속 한국어 숫자음 음성 인식 다이얼링 시스템)

  • Park, Kee-Young;Shin, You-Shik;Kim, Chong-Kyo
    • Journal of the Korean Institute of Telematics and Electronics T
    • /
    • v.36T no.2
    • /
    • pp.56-62
    • /
    • 1999
  • This paper described a voice dialing system(VDS) and its hardware implementation for a speaker-dependent recognition of Korean digit speech using duty cycle. The proposed VDS consist of integrator, leveling divider circuit and recognition program. The analog speech signal is applied to the VDS through the low-pass filter cutoff frequency is 4.5(kHz). It is thoroughly confirmed that the speaker-dependent recognition of Korean digit speech is well behaved by the hardware system. Experimental results show that the recognition rate is 64% in average for Korean digit speech. Moreover, a high recognition rate of 100% is obtained for digits; /4/, /5/, /6/, /7/, /9/, /0/.

  • PDF

A Generation System of English Pronunciation for the medical domain (의료분야를 위한 영어 발음열 생성 시스템)

  • Kim, A-Lum;Jeong, Kyung Seok;Park, Hyuk Ro
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.793-796
    • /
    • 2004
  • 본 논문은 의료분야의 음성 인식 시스템의 발음모델의 성능 향상에 필요한 올바른 영어 단어 발음열을 얻고자 한다. 본 시스템의 텍스트는 의료 전문 용어인 영어와 한글의 조합으로 되어있어, 한국어 G2P 성능뿐만 아니라 영어 G2P의 성능도 중요한 문제가 되고 있다. 또한 본 시스템의 의료 음성 데이터가 한국 화자로써, 표기열이 영어식 발음 폰셋으로 변환되면 효율적이지 못하다. 이를 위해, 영어 G2P의 결과를 한국 화자에 적합하게 변환해주는 방법론이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 음성 텍스트에서 영어만 추출한 후, 영어 G2P 프로그램(addttp, NIST)을 이용해 발음열을 구한다. 그리고 한국 화자의 실제 음성을 통해 얻은 정답 발음열을 구하여 서로 비교한다. 비교를 위해 각 발음열의 한 폰씩 정렬을 수행한 후, 삽입, 삭제, 대치 에러가 이러나는 쌍과 좌우 바이그램 정보를 추출한다. 마지막으로, 좌우 바이그램 정보에서 best1의 에러 패턴을 통해 모든 단어에 적용한다. 이 때, 최종적으로 실보다 득이 되는 에러패턴만을 추출, 적용한다. 실험에서는 26여개의 에러 패턴을 찾을 수 있어, 8%의 올바른 발음열을 추가적으로 얻는데 성공하였다.

  • PDF