• 제목/요약/키워드: Speech discrimination

검색결과 157건 처리시간 0.024초

주파수 변화율을 이용한 음성과 음악의 구분 (Speech and Music Discrimination Using Spectral Transition Rate)

  • 양경철;방용찬;조선호;육동석
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.273-278
    • /
    • 2009
  • 주파수 분석을 통해 음성과 음악의 특성을 살펴보면, 대부분 악기는 특정 주파수 소리를 지속적으로 내도록 고안되어 있다는 것을 알 수 있고, 음성은 조음 현상에 의해서 점차적인 주파수 변화가 발생하는 것을 알 수 있다. 본 논문에서는 이러한 음성과 음악이 갖고 있는 주파수 변화 특성을 이용하여 음성과 음악을 구별하는 방법을 제안한다. 즉, 음성과 음악을 구분해 주는 특성 값으로서 주파수 변화율을 사용하고자 한다. 제안한 주파수 변화율인 STR (spectral transition rate) 기반의 SMD (speech music discrimination) 실험 결과, 기존의 알고리즘보다 빠른 응답 속도에서 상대적으로 높은 성능을 보임을 알 수 있었다.

음절 간 쉼 간격이 인공와우 아동의 어음이해도에 미치는 영향 (Influences of Inter-syllable Pause Duration on Speech Discrimination Score in Children with Cochlear Implantation)

  • 박정인;허승덕
    • 재활복지공학회논문지
    • /
    • 제8권4호
    • /
    • pp.245-250
    • /
    • 2014
  • 이 연구의 목적은 음절 간 쉼 간격이 인공와우 이식(cochlear implantation; CI) 아동의 어음이해도(speech discrimination score; SDS)에 미치는 영향을 알아보고자 하는데 있다. 이 연구에는 CI 아동 12명이 참여하였다. 어음이해도 평가는 자체 제작한 무의미 3음절을 사용하였고, 음절 간 쉼 간격은 250, 500, 1,000ms로 조절하였다. 어음 강도는 대상자들이 가장 편하기 느끼는 강도(most comfortable loudness; MCL)로 하였다. 평가는 4지 선다형 보기에서 대상자들이 선택할 수 있는 방법(closed-set)으로 실시하였다. 어음이해도는 250, 500, 1,000 ms 순서로 62.08, 63.75, 69.58 %로 통계적으로 유의하지 않지만, 개선되는 경향이 나타났다(p = .4635). 이를 통해 음절 간 쉼 간격은 인공와우 이식 아동의 어음이해도에 영향을 미친다는 것을 알 수 있다.

  • PDF

스펙트럼 분석과 신경망을 이용한 음성/음악 분류 (Speech/Music Discrimination Using Spectrum Analysis and Neural Network)

  • 금지수;임성길;이현수
    • 한국음향학회지
    • /
    • 제26권5호
    • /
    • pp.207-213
    • /
    • 2007
  • 본 연구에서는 스펙트럼 분석과 신경망을 이용한 효과적인 음성/음악 분류 방법을 제안한다. 제안하는 방법은 스펙트럼을 분석하여 스펙트럴 피크 트랙에서 지속성 특징 파라미터인 MSDF(Maximum Spectral Duration Feature)를 추출하고 기존의 특징 파라미터인 MFSC(Mel Frequency Spectral Coefficients)와 결합하여 음성/음악 분류기의 특징으로 사용한다. 그리고 신경망을 음성/음악 분류기로 사용하였으며, 제안하는 방법의 성능 평가를 위해 학습 패턴 선별과 양, 신경망 구성에 따른 다양한 성능 평가를 수행하였다. 음성/음악 분류 결과 기존의 방법에 비해 성능 향상과 학습 패턴의 선별과 모델 구성에 따른 안정성을 확인할 수 있었다. MSDF와 MFSC를 특징 파라미터로 사용하고 50초 이상의 학습 패턴을 사용할 때 음성에 대해서는 94.97%, 음악에 대해서는 92.38%의 분류율을 얻었으며, MFSC만 사용할 때보다 음성은 1.25%, 음악은 1.69%의 향상된 성능을 얻었다.

Discrimination of Synthesized English Vowels by American and Korean Listeners

  • Yang, Byung-Gon
    • 음성과학
    • /
    • 제13권1호
    • /
    • pp.7-27
    • /
    • 2006
  • This study explored the discrimination of synthesized English vowel pairs by twenty-seven American and Korean, male and female listeners. The average formant values of nine monophthongs produced by ten American English male speakers were employed to synthesize the vowels. Then, subjects were instructed explicitly to respond to AX discrimination tasks in which the standard vowel was followed by another one with the increment or decrement of the original formant values. The highest and lowest formant values of the same vowel quality were collected and compared to examine patterns of vowel discrimination. Results showed that the American and Korean groups discriminated the vowel pairs almost identically and their center formant frequency values of the high and low boundary fell almost exactly on those of the standards. In addition, the acceptable range of the same vowel quality was similar among the language and gender groups. The acceptable thresholds of each vowel formed oval to maintain perceptual contrast from adjacent vowels. The results suggested that nonnative speakers with high English proficiency could match native speakers' performance in discriminating vowel pairs with a shorter inter-stimulus interval. Pedagogical implications of those findings are discussed.

  • PDF

오디오 인덱싱을 위한 음성/음악 분류 특징 비교 (A Comparison of Speech/Music Discrimination Features for Audio Indexing)

  • 이경록;서봉수;김진영
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.10-15
    • /
    • 2001
  • 본 논문에서 우리는 음향신호에서 음성과 음악을 분류하는 음성/음악 분류실험에 사용되는 특징들간의 상호조합을 비교하였다. 음향신호는 3가지 (음성, 음악, 음성+음악)와 2가지 (음성, 음악)로 분류하였다. 실험은 멜캡스트럼, 에너지, 영교차를 특징으로 사용하였고, 음성/음악 분류성능이 가장 좋은 특징간 상호조합을 모색하였다. 분류 알고리즘으로는 Gaussian Mixture Model (GMM)을 이용하였으며, GMM에 의한 데이터 모델링 전에 각기 다른 특징들을 하나의 특징공간에서 결합하였다. 실험결과 3가지 분류기준 적용시에는 멜캡스트럼, 영교차 조합이 가장 좋은 결과 (음성: 95.1%, 음악: 61.9%, 음성+음악: 55.5%)를 보였고, 2가지 분류기준 적용시에는 멜캡스트럼, 에너지 조합과 멜캡스트럼, 에너지, 영교차 조합이 가장 좋은 결과 (음성: 98.9%, 음악: 100%)를 보였다.

  • PDF

멜 켑스트럼 모듈레이션 에너지를 이용한 음성/음악 판별 (Speech/Music Discrimination Using Mel-Cepstrum Modulation Energy)

  • 김봉완;최대림;이용주
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.89-103
    • /
    • 2007
  • In this paper, we introduce mel-cepstrum modulation energy (MCME) for a feature to discriminate speech and music data. MCME is a mel-cepstrum domain extension of modulation energy (ME). MCME is extracted on the time trajectory of Mel-frequency cepstral coefficients, while ME is based on the spectrum. As cepstral coefficients are mutually uncorrelated, we expect the MCME to perform better than the ME. To find out the best modulation frequency for MCME, we perform experiments with 4 Hz to 20 Hz modulation frequency. To show effectiveness of the proposed feature, MCME, we compare the discrimination accuracy with the results obtained from the ME and the cepstral flux.

  • PDF

다차원 MMCD를 이용한 음성/음악 판별 (Speech/Music Discrimination Using Multi-dimensional MMCD)

  • 최무열;송화전;박슬한;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.142-145
    • /
    • 2006
  • Discrimination between speech and music is important in many multimedia applications. Previously we proposed a new parameter for speech/music discrimination, the mean of minimum cepstral distances (MMCD), and it outperformed the conventional parameters. One weakness of it is that its performance depends on range of candidate frames to compute the minimum cepstral distance, which requires the optimal selection of the range experimentally. In this paper, to alleviate the problem, we propose a multi-dimensional MMCD parameter which consists of multiple MMCDs with different ranges of candidate frames. Experimental results show that the multi-dimensional MMCD parameter yields an error rate reduction of 22.5% compared with the optimally chosen one-dimensional MMCD parameter.

  • PDF

정상 청력 아동의 음절 간 쉼 간격에 따른 어음이해도 변화 (Changes of Speech Discrimination Score Depending on Inter-syllable Pause Duration in Normal Hearing Children)

  • 박정인;이지연;허승덕
    • 재활복지공학회논문지
    • /
    • 제8권2호
    • /
    • pp.139-144
    • /
    • 2014
  • 어음 이해는 발화속도에 영향을 받는다. 발화속도는 쉼 간격으로 조절할 수 있는데, 쉼 간격은 정보 처리과정에서 여유 시간을 가질 수 있어서 정보의 과부하를 피할 수 있다. 이 연구는 쉼 간격이 노화에 따른 청력손실과 청각재활, 청각처리 과정에 미치는 영향을 알아보기 위한 기초 연구로서 그 정상치를 알아보고자 한다. 연구 대상은 청각학 및 언어병리학적 문제가 없는 일반 초등학생 남자 7명, 여자 8명으로 하였다. 검사 도구는 3음절 20개를 1 set으로, 모두 4 set를 제작하였다. 이들 모든 낱말은 각각 보통(250 ms), 느린(500 ms), 아주 느린(1000 ms) 속도로 쉼 간격을 조절하였다. 선택용 보기는 올바르게 표기한 3음절 낱말 하나와 음소 하나씩을 오류 표기한 세 개의 낱말을 포함한 4개의 낱말로 하였다. 대상자에게는 3음절 낱말을 들려 준 후, 하나를 선택하게 하였다. 연구 결과 쉼 간격에 따른 평균 어음이해도는 250, 500, 1,000 ms의 순서로 $73{\pm}19.4%$, $84{\pm}12.2%$, $88{\pm}8.8%$로 각각 나타났다.

  • PDF

In Search of Models in Speech Communication Research

  • Hiroya, Fujisaki
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.9-22
    • /
    • 2009
  • This paper first presents the author's personal view on the importance of modeling in scientific research in general, and then describes two of his works toward modeling certain aspects of human speech communication. The first work is concerned with the physiological and physical mechanisms of controlling the voice fundamental frequency of speech, which is an important parameter for expressing information on tone, accent, and intonation. The second work is concerned with the cognitive processes involved in a discrimination test of speech stimuli, which gives rise to the phenomenon of so-called categorical perception. They are meant to illustrate the power of models based on deep understanding and precise formulation of the functions of the mechanisms/processes that underlie observed phenomena. Finally, it also presents the author's view on some models that are yet to be developed.

  • PDF

음장과 외이도 내부에서의 음성 비교 (The comparison of the voice between the free field and the external auditory canal)

  • 허승덕;김리석;고도흥;이정학
    • 음성과학
    • /
    • 제7권4호
    • /
    • pp.83-90
    • /
    • 2000
  • The purpose of this study was to examine some acoustic characteristics in the ear canal. It was assumed that a sound outside the external auditory canal could be different from the sound inside the external auditory canal. The acoustic signals were captured by a probe microphone placed at a distance within 1 cm from the tympanic membrane, and a reference microphone was placed over the upper pinna. Three vowels /a/, /i/, /u/ were recorded from a normal adult male speaker. The parameters such as the formant frequency ($Fl\simF5$) and the peak intensity were measured using a speech analyser, PCquirer. It was found that the entering part of the external auditory canal functions as a narrowing point as to the speech that passes through the free field. Results show that acoustic characteristics were changed for speech discrimination rather than speech perception.

  • PDF