EM 알고리즘을 이용할 재귀적인 음소분리

Recursive Segmentation of Speech Signals using Expectation-Minimization

  • 강병옥 (한국전자통신연구원 네트워크 연구소 음성정보연구센타, 포항공과대학교 전자전기공학과) ;
  • 정홍 (한국전자통신연구원 네트워크 연구소 음성정보연구센타, 포항공과대학교 전자전기공학과)
  • Kang Byung-Ok (SpeechTechnology Research Center, Network Laboratory, ETRI EE DEPT, POSTECH) ;
  • Jung Hong (SpeechTechnology Research Center, Network Laboratory, ETRI EE DEPT, POSTECH)
  • 발행 : 2002.07.01

초록

본 논문에서는 입력음성신호로부터 음소간의 경계를 찾는 문제를 풀기위해 재귀적인 방식으로 EM 알고리즘을 적용한다. 즉, 예상되는 두 끝점 사이의 부분을 현재의 프레임 n 이라고 하면, 그 전 프레임 n-1 에서 구해진 끝점이 주는 정보와 그 끝점으로부터 이어지는 음성샘플로부터 현재 프레임의 끝점을 구한다. 또한 현재의 프레임 n 에서 끝점을 추정해 내면, 그 추정한 끝점과 그 점 이후에 이어지는 음성샘플값으로부터 다음 프레임 n+1 의 끝점을 구한다. 이러한 방식을 재귀적인 음소분리 방식이라고 한다. 그리고, 각 프레임에서 끝점을 구하기 위해서는 끝점의 좌표를 추정해야 할 파라메터로 하고, 그 주변의 음성샘플 값을 관찰 값으로 하여 EM(Expectation and Maximization) 알고리즘을 이용한다. 이 EM 알고리즘을 이용한 재귀적인 음소분리 방식을 실제 음성 DB 로부터 음소쌍을 추출하여 테스트 했을 때 약 5 회의 EM 반복 후에 경계간으로 수렴함을 볼 수 있었다.

키워드