한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
- /
- Pages.210-214
- /
- 2018
- /
- 2005-3053(pISSN)
한국어 대화 엔진에서의 문장 분류
Sentence Classification for Korean Dialog Engine
- Choi, DongHyun (Kakao Corp) ;
- Park, IlNam (Kakao Corp) ;
- Lim, Jae-Soo (Kakao Corp) ;
- Baek, SeulYe (Kakao Corp) ;
- Lee, MiOk (Kakao Corp) ;
- Shin, Myeongcheol (Kakao Corp) ;
- Kim, EungGyun (Kakao Corp) ;
- Shin, Dong Ryeol (Sungkyunkwan University)
- 발행 : 2018.10.12
초록
본 논문에서는 한국어 대화 엔진에서의 문장 분류 방법에 대해서 소개한다. 문장 분류시 말뭉치에서 관찰되지 않은 표현들을 포함한 입력 발화를 처리하기 위하여, 태깅되지 않은 뉴스 데이터로부터 일반적인 단어 의미 벡터들이 훈련 및 성능 평가되었고, 이를 문장 분류기에 적용하였다. 또한, 실 서비스에 적용 가능한 빠른 분류 속도를 유지함과 동시에 문제에 특화된 의미 벡터들을 학습하기 위하여, 기존에 사용되던 캐릭터 기반 의미 벡터 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다. 실험 결과, 자체 구축된 테스트 말뭉치에 대하여 본 논문에서 제안된 시스템은 문장 단위 정확률 96.88, 문장당 평균 실행 시간 12.68 msec을 기록하였다.