ETRI 방송 뉴스 자막 처리 시스템을 위한 미등록어 검출기의 개발

Unknown Word Extractor Development, for ETRI Broadcast News Caption System

  • 윤승 (한국전자통신연구원 음성언어팀) ;
  • 정의정 (한국전자통신연구원 음성언어팀) ;
  • 박준 (한국전자통신연구원 음성언어팀) ;
  • 이영직 (한국전자통신연구원 음성언어팀)
  • Yun Seung (Spoken Language Processing Team, Electronics and Telecommunications Research Institute) ;
  • Jung Eui-Jung (Spoken Language Processing Team, Electronics and Telecommunications Research Institute) ;
  • Park Jun (Spoken Language Processing Team, Electronics and Telecommunications Research Institute) ;
  • Lee Youngjik (Spoken Language Processing Team, Electronics and Telecommunications Research Institute)
  • 발행 : 2002.07.01

초록

본 논문에서는 ETRI 방송 뉴스 자막 처리 시스템의 성능 향상을 도모하기 위해 개발된 미등록어 검출기에 대해 기술한다. 음성 인식 성능 하락에 큰 영향을 미치는 요인들 중 하나로 꼽히는 미등록어 문제를 해결하기 위해 ETRI 방송 뉴스 자막 처리 시스템에서는 오프라인으로 동작하는 미등록어 검출기를 채택하였다. 이 미등록어 검출기는 방송 뉴스 자막 처리 시스템 가동 전에 미리 인터넷을 통해 최신 신문 기사와 방송 뉴스를 수집해와 이를 토대로 두 단계에 걸쳐 미등록어를 사전에 추출하여 인식 어휘 사전에 포함시킴으로써 미등록어로 인한 방송 뉴스의 인식 성능 저하 문제를 해결하도록 하였다.

키워드