한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)
- 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
- /
- Pages.270-272
- /
- 2012
- /
- 1598-5164(pISSN)
Structural SVM을 이용한 한국어 자동 띄어쓰기
Automatic Korean Word Spacing using Structural SVM
초록
본 논문에서는 띄어쓰기가 완전히 무시된 한국어 문장의 띄어쓰기 문제를 위해 structural SVM을 이용한 한국어 띄어쓰기 방법을 제안한다. Structural SVM은 기존의 이진 분류 SVM을 sequence labeling 등의 문제에 적용할 수 있도록 확장된 것으로, 이 분야에 띄어난 성능을 보이는 것으로 알려진 CRF와 비슷하거나 더 높은 성능을 보이고 있다. 본 논문에서는 약 2,600만 어절의 세종 코퍼스 원문을 학습 데이터로 사용하고, 약 29만 어절의 ETRI 품사 부착 코퍼스를 평가 데이터로 사용하였다. 평가 결과 음절단위의 정확도는 99.01%, 어절단위의 정확도는 95.47%를 보였다.
키워드