ML 기반의 음성의 유/무성음 성분 분리

A VOICEDIUNVOICED DECOMPOSITION OF SPEECH BASED ON MAXIMUM LIKELIHOOD METHOD

  • 강명구 (한국통신 멀티미디어 연구소 음성언어연구실)
  • 발행 : 1998.08.01

초록

음성에 공존하는 유/무성음 성분을 추정하는 알고리즘을 제안하였다. 유성음 성분은 주기성을 띤 사인곡선의 형태로 표현되며, 무성음 성분은 자동회기의 결과로 표현된다. 두 성분을 각각 차례대로 추정할 경우 한 성분에 대한 추정치의 정확도가 나머지 성분의 추정에도 영향을 주기 때문에 제안된 알고리즘은 두 성분을 공동으로 추정한다. 실제 ML 추정치는 구하기 어려워 이에 근접하는 추정치를 선형 방정식들을 interative 방법으로 풀어 구현하였다. 예비 시험결과 제안한 알고리즘이 정확하고 효율적으로 두 성분을 추정함을 알 수 있었고, 합성된 데이터 뿐만 아니라 실제 음성 데이터를 이용한 실험에서도 좋은 결과를 보여주었다.

키워드