Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2018.10a
- /
- Pages.661-664
- /
- 2018
- /
- 2005-3053(pISSN)
Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation
음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기
- Song, Chisung (NCSOFT AI Center Speech Lab) ;
- Han, Myungsoo (NCSOFT AI Center Speech Lab) ;
- Cho, Hoonyoung (NCSOFT AI Center Speech Lab) ;
- Lee, Kyong-Nim (NCSOFT AI Center Speech Lab)
- 송치성 (엔씨소프트 AI센터 Speech Lab) ;
- 한명수 (엔씨소프트 AI센터 Speech Lab) ;
- 조훈영 (엔씨소프트 AI센터 Speech Lab) ;
- 이경님 (엔씨소프트 AI센터 Speech Lab)
- Published : 2018.10.12
Abstract
온라인 게시판 글과 채팅창에서 주고받는 대화는 실제 사용되고 있는 구어체 특성이 잘 반영된 텍스트 코퍼스로 음성인식의 언어 모델 재료로 활용하기 좋은 학습 데이터이다. 하지만 온라인 특성상 노이즈가 많이 포함되어 있기 때문에 학습에 직접 활용하기가 어렵다. 본 논문에서는 사용자 입력오류가 다수 포함된 문장에서의 한글 오류 보정을 위한 sequence-to-sequence Denoising Autoencoder 모델을 제안한다.
Keywords