대화형 코퍼스의 설계 및 구조적 문서화에 관한 연구

A Study in Design and Construction of Structured Documents for Dialogue Corpus

  • 강창규 (원광대학교 컴퓨터공학과) ;
  • 남명우 (혜전대학 디지털전자디자인과) ;
  • 양옥렬 (혜전대학 컴퓨터멀티미디어계열)
  • Published : 2004.12.01

Abstract

음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 TEI를 기반으로 하여 대화 영역을 텔레뱅킹으로 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(extensible Markup Language)로 표준화할 수 있도록 DTD (Document Type Definition) 정의하고 저장 시스템을 설계하였다.

Dialogue speech corpora that contain sufficient dialogue speech features are needed for performance assessment of a spoken language dialogue system. And labeling information of dialogue speech corpora plays an important role for improvement of recognition rate in acoustic and language models. In this paper, we examine the methods by which labeling information of dialogue speech corpora can be structured. More specifically, we examined how to represent features of dialogue speech in a structured document based XML and how to design the repository system of the information.

Keywords