Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation

Song, Chisung;Han, Myungsoo;Cho, Hoonyoung;Lee, Kyong-Nim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2018.10a
/
Pages.661-664
/
2018
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation

음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기

Song, Chisung (NCSOFT AI Center Speech Lab) ;
Han, Myungsoo (NCSOFT AI Center Speech Lab) ;
Cho, Hoonyoung (NCSOFT AI Center Speech Lab) ;
Lee, Kyong-Nim (NCSOFT AI Center Speech Lab)

송치성 (엔씨소프트 AI센터 Speech Lab) ;
한명수 (엔씨소프트 AI센터 Speech Lab) ;
조훈영 (엔씨소프트 AI센터 Speech Lab) ;
이경님 (엔씨소프트 AI센터 Speech Lab)

Published : 2018.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

온라인 게시판 글과 채팅창에서 주고받는 대화는 실제 사용되고 있는 구어체 특성이 잘 반영된 텍스트 코퍼스로 음성인식의 언어 모델 재료로 활용하기 좋은 학습 데이터이다. 하지만 온라인 특성상 노이즈가 많이 포함되어 있기 때문에 학습에 직접 활용하기가 어렵다. 본 논문에서는 사용자 입력오류가 다수 포함된 문장에서의 한글 오류 보정을 위한 sequence-to-sequence Denoising Autoencoder 모델을 제안한다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation

음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)