A Cost Sensitive Part-of-Speech Tagging: Differentiating Serious Errors from Minor Errors

태깅 오류 간 중요도 차별화에 기반한 비용 의존 품사 태깅

  • Son, Jeong-Woo (Kyungpook National University School of Computer Science and Engineering, Machine Learning Lab.) ;
  • Noh, Tae-Gil (Kyungpook National University School of Computer Science and Engineering, Machine Learning Lab.) ;
  • Park, Seong-Bae (Kyungpook National University School of Computer Science and Engineering, Machine Learning Lab.) ;
  • Go, Jun-Ho (Kyungpook National University School of Computer Science and Engineering, Machine Learning Lab.)
  • 손정우 (경북대학교 IT대학 컴퓨터학부 기계학습연구실) ;
  • 노태길 (경북대학교 IT대학 컴퓨터학부 기계학습연구실) ;
  • 박성배 (경북대학교 IT대학 컴퓨터학부 기계학습연구실) ;
  • 고준호 (경북대학교 IT대학 컴퓨터학부 기계학습연구실)
  • Published : 2011.06.29

Abstract

품사 태깅에서 오류는 같은 가중치를 가지는 것으로 간주되어 왔다. 하지만 품사 태깅의 결과를 활용하는 다른 자연어 처리 기술에 태깅 오류가 얼마나 영향을 미칠 수 있는가에 따라 품사 태깅 시 발생하는 오류가 가지는 가중치를 다르게 보아야 한다. 심각한 오류는 이를 활용하는 자연어 처리 기술의 성능 저하를 크게 야기하지만, 사소한 오류는 성능의 저하를 야기하지 않거나 그 영향이 미미하다. 본 논문에서는 품사 태깅 시, 전체적인 성능을 유지하면서 심각한 오류를 줄이는 것을 목표로 한다. 이를 위해 두 가지 점진적 손실 함수(gradient loss function)를 제안한다. 제안한 손실 함수는 심각한 오류에 사소한 오류보다 더 큰 가중치를 줌으로써 품사 태깅 모델이 심각한 오류에 더 집중하여 성능을 최적화하도록 한다. 실험에서 제안한 손실 함수를 활용한 태깅 모델은 기존의 방법에 비해 심각한 오류를 효과적으로 줄일 뿐만 아니라 전체적으로 더 높은 정확도를 보였다.

Keywords

Acknowledgement

Grant : 모바일 플랫폼 기반 계획 및 학습 인지 모델 프레임워크 기술 개발

Supported by : 산업원천기술개발사업