Performance Improvement of Chunking Using Cascaded Machine Learning Methods

다단계 기계학습 기법을 이용한 구묶음 성능향상

  • 전길호 (한국해양대학교, NLP연구실) ;
  • 서형원 (한국해양대학교, NLP연구실) ;
  • 최명길 (한국해양대학교, NLP연구실) ;
  • 남유림 (한국해양대학교, NLP연구실) ;
  • 김재훈 (한국해양대학교, NLP연구실)
  • Published : 2011.10.06

Abstract

기계학습은 학습말뭉치로부터 문제를 해결하기 위한 규칙을 학습하여 모델을 생성한다. 생성된 모델의 성능을 높이기 위해서는 문제에 적합한 자질들을 많이 이용해야 하지만 많은 자질들을 사용하면 모델의 생성시간은 느려지는 것이 사실이다. 이 문제를 해결하기 위해 본 논문에서는 다단계 기법을 적용한 기계학습으로 구묶음 시스템을 제작하여 학습모델의 생성시간을 단축하고 성능을 높이는 기법을 제안한다. 많은 종류의 자질들을 두 단계로 분리하여 학습하는 기법으로 1단계에서 구의 경계를 인식하고 2단계에서 구의태그를 결정한다. 1단계의 학습자질은 어휘 정보, 품사 정보, 띄어쓰기 정보, 중심어 정보를 사용하였으며, 2단계 학습자질은 어휘 정보와 품사 정보 외에 1단계 결과에서 추출한 구의 시작 품사 정보와 끝 품사 정보, 구 정보, 구 품사 정보를 자질로 사용하였다. 평가를 위해서 본 논문에서는 ETRI 구문구조 말뭉치를 사용하였다.