• 제목/요약/키워드: 포만트 주파수

검색결과 40건 처리시간 0.02초

선형워핑함수의 화자정규화에 의한 음성 인식시스템의 성능향상 (Performance Improvement of Speech Recognition System Based on Speaker Normalization Through Linear Warping Function)

  • 최석용;정경용;이정현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.879-882
    • /
    • 2000
  • 화자종속 음성인식 시스템은 훈련 데이터가 화자들 사이의 음향적 변이를 충분히 모델링 할 수 있을 때, 화자독립 시스템보다 더 성능이 졸은 것으로 알려져 있다. 화자 정규화 기술은 입력음성의 스펙트럼을 수정하여 화자들 사이의 변이를 줄인다. 최근 성공적인 화자 정규화 알고리즘은 신호처리단계에 화자 특유 주파수 워핑을 통합했다. 이런 알고리즘은 입력음성에 담겨있는 음향적 특징을 다 사용하지 않는다. 본 논문에서는 화자의 음향적 특징으로 세 개의 포만트 주파수를 이용하였고, 수집된 포만트 주파수들로부터 워핑함수를 정의하는데 선형회귀를 사용한 화자 정규화 방법을 제안한다. 이 방법을 사용하여 인식 성능을 향상할 수 있었다.

  • PDF

음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상 (Improvement of Speech Recognition System Using the Trained Model of Speech Feature)

  • 송점동
    • 정보학연구
    • /
    • 제3권4호
    • /
    • pp.1-12
    • /
    • 2000
  • 음성은 특성에 따라 고음성분이 강한 음성과 저음성분이 강한 음성으로 구분할 수 있다. 그러나 이제까지 음성인식의 연구에 있어서는 이러한 특성을 고려하지 않고, 인식기를 구성함으로써 상대적으로 낮은 인식률과 인식모델을 구성할 때 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 이러한 특성을 포만트 주파수를 이용하여 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안한다. 한국어에서 가능한 47개의 모노폰을 이용하여 인식모델을 구성하였으며, 여성과 남성 각각 20명의 음성을 이용하여 인식모델을 학습시켰다. 포만트 주파수를 추출하여 구성한 포만트 주파수 테이불과 피치 정보값을 이용하여 음성의 특성을 구분한 후, 음성특성에 따라 학습된 인식모델을 이용하여 인식을 수행하였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 기존의 방법보다 인식률이 향상됨을 보였다.

  • PDF

개선된 피치검출을 위한 스펙트럼 평탄화 기법에 관한 연구 (A Study on the Technique of Spectrum Flattening for Improved Pitch Detection)

  • 강은영;배명진;민소연
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.310-314
    • /
    • 2002
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하다. 그러나 포만트의 영향과 천이진폭의 영향 때문에 음성신호로부터 정확한 피치검출은 매우 어렵다. 따라서 본 논문에서는 음소의 천이나 변동의 영향이 적은 주파수 영역에서 스펙트럼을 평탄화함으로써 포만트의 영향을 제거한 후 피치를 검출한다. 본 논문에서는 새로운 스펙트럼 평탄화 기법을 제안하고 기존의 방법인 LPC법, 켐스트럼법과 비교하여 어느 정도의 우수성을 보이는지 평가하였다. 또한 각각의 방법을 적용하여 기본주파수 (피치)를 검출한 결과는 제안한 방법이 우수함을 보여주고 있다.

캡스트럼 포락선을 이용한 해금 소리의 포만트 합성 (Formant Synthesis of Haegeum Sounds Using Cepstral Envelope)

  • 홍연우;조상진;김종면;정의필
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.526-533
    • /
    • 2009
  • 본 논문에서는 전통 현악기 해금의 스펙트럼 모델링을 위해 캡스트럼 포락선을 이용한 포만트 합성법을 제안한다. 스펙트럼 모델링은 입력 신호를 정현파 성분과 노이즈 성분의 합으로 해석하여 음을 합성하는 기술로 주기성이 있는 현악기나 관악기의 음 합성에 효과적이다. 캡스트럼 포락선의 포만트는 정현파 성분 합성을 위한 파라미터로 활용하였다. 정현파 성분을 합성하기 위해 기존의 가산합성 방식과는 달리 IIT (Impulse Invariant Transform)로 공명기를 설계하였으며 배음간 크기 보완을 위해 대역 통과 필터를 추가하였다. 원음과 합성된 정현파 성분의 차로 구해진 노이즈 성분에 포함된 일부 유효배음을 제거하면 완전한 노이즈 성분을 구할 수 있으며 선형 보간법 (linear interpolation)에 기초하여 그 주파수 특성을 파라미터화 하였다. 최종적으로 합성된 노이즈 성분과 정현파 성분을 더하여 해금 단위음을 합성하였고 합성음은 원음과 매우 유사하였다.

벅아이 코퍼스를 이용한 미국 영어의 /l/ 연구개음화 연구 (A study of /l/ velarization in American English based on the Buckeye Corpus)

  • 사재진
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.19-25
    • /
    • 2021
  • 설측음의 변이음에는 어두운 [l]과 밝은 [l]이 있다고 알려져 왔으나 최근 설측음의 변이음의 종류가 언어마다 다르다는 주장이 제기되고 있다. 본 연구에서는 영어 설측음 /l/이 음절 내 출현 위치에 따라 연구개음화의 실현 정도가 유의미하게 다른 변이음이 있는지 확인하기 위해 자연발화 음성 데이터베이스인 벅아이 코퍼스를 이용하였다. 먼저, 설측음의 음절 내 출현 위치에 따라 측정한 포만트 주파수를 비교한 결과 음절 내 모든 위치에서 유의미한 차이를 보이는 F2 주파수를 근거로 연구개음화 정도가 유의미하게 다른 변이음이 어두운 [l]과 밝은 [l] 이외에도 존재한다고 판단할 수 있었다. 또한 인접 모음의 후설성이 설측음의 연구개음화에 미치는 영향으로 인해 표준적인 어두운 [l]과 표준적인 밝은 [l] 이외의 변이음이 존재하는지 확인하기 위해 포만트 주파수를 측정하고 이에 대해 분산분석을 한 결과 음절 말 위치에서 연구개음화될 때에도 인접 모음이 후설모음인 경우 인접 모음이 전설모음인 경우와 비교했을 때 유의미하게 차이나는 F2 주파수를 보여 연구개음화되는 정도에 차이가 있음을 확인할 수 있었다. 이는 음절 초 위치에서 설측음이 실현될 경우에도 마찬가지로 인접 모음의 종류에 무관하게 모든 설측음이 음절 초 위치에서는 표준적인 밝은 [l]로 발음될 것이라고 예측했지만 실제 F2 주파수는 음절 말 위치에서 선행모음이 전설모음일 경우의 설측음과 유사한 결과를 나타냈다. 이를 통해 음절 내의 위치뿐만 아니라 인접 모음의 후설성이 설측음의 연구개음화 정도에 미치는 영향이 매우 크다는 점을 확인할 수 있고, 이러한 논문의 결과는 설측음의 변이음의 종류가 언어마다 다르고 미국 영어의 경우 다양하게 나타난다는 주장에 대한 하나의 음성학적 근거로 사용될 수 있을 것이다.

음성특성을 이용한 LSP 변환시간 단축에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time Using the Voice Characteristic)

  • 강은영;민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.557-560
    • /
    • 2000
  • LSP 파라미터는 일정한 ,스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는다. 피러나 LPC 계수를 LSP 파라미터로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다. 기존의 LSP 변환 방법 중 음성 부호화기에 주로 사용되는 Real Root 방법은 근을 구하기 위해 주파수 역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 본 논문에서 제안하는 방법은 음성 특성을 이용하는 것으로, 묵음의 경우는 묵음 구간에서 일정하게 나타나는 LSP 파라미터의 분포 특성을 이용하여 검색하고 유/무성음에 대해서는 LSP 파라미터의 분포도에 따라 검색구간의 순서와 검색간격을 달리한다. 또한, 모음에 대해서는 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 Real Root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 46.5% 단축되었다.

  • PDF

검색구간 조절에 의한 LSP 변환시간 감소에 관한 연구 (A Study on the Reduction of LSP Transformation Time by Adjustment of Search Band)

  • 민소연;배명진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.208-211
    • /
    • 2006
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형 보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP 분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF

검색구간의 순서와 해상도 조절을 통한 LSP 계산량 감소에 관한 연구 (A Study on the Reduction of LSPComputation Using Adjustment of Search Band Sequence and Interval)

  • 임지선
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.245-248
    • /
    • 2010
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP 분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF

신경망 기반의 동적 파라미터들을 이용한 음성 경계 추출 (A Voice Boundary Detection Method Using Dynamic Parameters Based On Neural Network)

  • 마창수;김계영;최형일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.616-618
    • /
    • 2002
  • 본 논문에서는 음성인식 성능을 높이기 위한 기본적 단계인 음성과 비음성 부분의 경계를 추출하는 음성 경계 추출 방법을 제안한다. 음성경계 추출을 위한 특징들로는 시간영역 분할 파라미터인 ZCR, MA를 사용하고 주파수 영역 분할 파라미터로 주파수 대역 파워 에너지 (Frequency band power energy), 포만트 계수 (Formant coefficient)를 사용하였고 각 파라미터들을 이용하여 음성 경계를 결정할 때 경험에 의해 임계치를 결정하는 단점을 보안하기 위해서 신경망을 이용한다. 신경망의 가중치와 임계치들은 지도 학습을 통해 최적화 되고, 학습을 통해 구성된 망을 음성과 비음성의 경계치 구분에 사용한다.

  • PDF

음성 인식 시스템의 화자 적응 성능 향상을 위한 코드북 설계 (On Codebook Design to Improve Speaker Adaptation)

  • 양태영;신원호;김원구;윤대희
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 논문에서는 반연속 HMM(semi-continuous Hidden Markov Model) 음성 인식 시스템에 적용되는 베이시안 화자 적응(Bayesian speaker adaptation)의 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존 베이시안 화자 적응 알고리즘의 경우 새로운 화자의 특징 분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준(reference) 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고, 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응 관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.

  • PDF