한국어 화행 분류를 위한 최적의 자질 인식 및 조합의 비교 연구

A Comparative Study on Optimal Feature Identification and Combination for Korean Dialogue Act Classification

  • 김민정 (고려대학교 컴퓨터.전파통신공학과) ;
  • 박재현 (고려대학교 컴퓨터.전파통신공학과) ;
  • 김상범 (SK Telecom 검색사업팀) ;
  • 임해창 (고려대학교 컴퓨터.통신공학부) ;
  • 이도길 (고려대학교 민족문화연구원)
  • 발행 : 2008.11.15

초록

본 논문은 통계 기반 한국어 화행분류를 위하여 필요한 각 자질이 분류 성능에 미치는 영향과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 지지벡터기계 학습 방법을 이용하여 구현한 화행 분류시스템을 통해 실험한 결과, n-gram 자질 중 품사 바이그램은 유용하지 않으며 형태소-품사 쌍과 다른 자질들을 결합했을 때 성능이 향상됨을 알 수 있었다. 또한, 자질 선택 기법을 사용한 자질 비율에 따른 실험을 통해서 매우 적은 자질만으로도 화행 분류에 있어 어느 정도 안정된 성능을 낼 수 있었다. 아울러, 실험 결과의 분석을 통해 한국어에서 마지막 어절이 문장 전체의 화행분류에 중요한 역할을 하며, 한국어의 특징인 자유 어순이나 주어의 빈번한 생략 등이 화행 분류 실험의 성능에 영향을 미친다는 사실도 알 수 있었다.

In this paper, we have evaluated and compared each feature and feature combinations necessary for statistical Korean dialogue act classification. We have implemented a Korean dialogue act classification system by using the Support Vector Machine method. The experimental results show that the POS bigram does not work well and the morpheme-POS pair and other features can be complementary to each other. In addition, a small number of features, which are selected by a feature selection technique such as chi-square, are enough to show steady performance of dialogue act classification. We also found that the last eojeol plays an important role in classifying an entire sentence, and that Korean characteristics such as free order and frequent subject ellipsis can affect the performance of dialogue act classification.

키워드

참고문헌

  1. J.A. Austin, "How to Do Things with words," Harvard University Press, 1962
  2. Massaki Nagata and Tsuyoshi Morimoto, "First steps towards statistical modeling of dialogue to predict the speech act type of the next utterance," Speech Communication Vol. 15, issue 3-4, pp. 193-203, 2004 https://doi.org/10.1016/0167-6393(94)90071-X
  3. María José Castro et al., "Dialogue Act Classification in a Spoken Dialogue system," CAEPIA- TTIA 2003, LNAI 3040, pp. 260-270, 2004
  4. 이성욱, 서정연, "결정트리를 이용한 한국어 화행결정", 제 11회 한글 및 한국어 정보처리 학술대회 논문집, pp. 377-381, Oct. 1999
  5. Won Seug Choi, Jeong-Mi Cho, Jungyun Seo, "Analysis System of Speech Acts and Discourse Structures Using Maximum Entropy Model," in the Proc. of 37th Annual Meeting of the ACL, pp. 230-237, Maryland, U.S.A., Jun. 1999
  6. 은종민, 이성욱, 서정연, "지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석", 정보처리학회논문지B, 제 12-B권 3호, pp. 365-368, 한국정보처리학회, Jun. 2005 https://doi.org/10.3745/KIPSTB.2005.12B.3.365
  7. 김세종, 이용훈, 이종혁, "이전 문장 자질과 다음 발화의 후보 화행을 이용한 한국어화행 분석", 제 19회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 23-30, 2007
  8. 김경선, "개선된 자질 추출 및 가중치 부여 방법을 이용한 한국어 화행 분류 시스템", 서강대학교, 박사학위논문, 2005
  9. 이현정, 서정연, "일정관리 영역에서 신경망을 이용한 사용자 의도 파악", 한국인지과학회 춘계학술대회 논문집, pp. 87-90, Jun, 2006
  10. 김민정, 한경수, 박재현, 송영인, 임해창, "도메인에 비종속적인 대화에서의 화행 분류", 제 18회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 246-253, 2006
  11. Massaki Nagata and Tsuyoshi Morimoto. "An experimental statistical dialogue model to predict the speech act type of the next utterance," In Proceedings of the International Symposium on Spoken Dialogues, pp. 83-86, 1993
  12. Norbert Reithinger and Martin Klesen, "Dialogue act classification using language models," In Proceedings of EuroSpeech-97, pp. 2235-2238, 1997
  13. Max Louwerse and Scott Crossley, "Dialog act classification using N-Gram algorithms," In Proceedings of the International Florida Artificial Intelligence Research Society, Menlo Park, California, pp. 758-763, 2006
  14. Stolcke, A. et al., "Dialogue act modeling for automatic tagging and recognition of conversational speech," In Computational Linguistics 26(3), pp. 339-373, 2000 https://doi.org/10.1162/089120100561737
  15. Webb, N., Hepple, M., Wilks, Y., 2005. Dialog act classification based on intra-utterance features. In Proceedings of the AAAI Workshop on Spoken Language Understanding
  16. Kwok Cheung Lan et al., "Dialogue Act Recognition Using Maximum Entropy," In Journal of the American Society for Information Science and Technology, 59(6), pp. 859-874, 2008 https://doi.org/10.1002/asi.20777
  17. Godfrey, J., Holliman, E., & McDaniel, J. SWITCHBOARD:Telephone speech corpus for research and development. In Proceedings of the IEEE International Conference on Acustics, Speech, and Signal Processing (ICASSP-92) Vol. 1, pp. 517-520, 1992
  18. 21세기 세종계획 국어 기초자료 구축 분과 연구 보고서, 2003
  19. 이상주, "자동 품사 부착을 위한 새로운 통계적 모형", 고려대학교, 박사학위논문, 1999
  20. Jacob L. Mey. Pragmatics: an introduction. Blackwell Publishers, 2nd edition, 2001
  21. T. Joachims, Making large-Scale SVM Learning Practical. Advances in Kernel Methods - Support Vector Learning, B. Scholkopf and C. Burges and A. Smola (ed.), MIT-Press, 1999
  22. 전성희, "한국어의 생략 현상 연구", 고려대학교, 석사학위논문, 2000