Multi-labeled Domain Detection Using CNN
CNN을 이용한 발화 주제 다중 분류
- Choi, Kyoungho (Naver RND center) ;
- Kim, Kyungduk (Clova Dialogue) ;
- Kim, Yonghe (Naver RND center) ;
- Kang, Inho (Clova NLP)
- Published : 2017.10.13
Abstract
CNN(Convolutional Neural Network)을 이용하여 발화 주제 다중 분류 task를 multi-labeling 방법과, cluster 방법을 이용하여 수행하고, 각 방법론에 MSE(Mean Square Error), softmax cross-entropy, sigmoid cross-entropy를 적용하여 성능을 평가하였다. Network는 음절 단위로 tokenize하고, 품사정보를 각 token의 추가한 sequence와, Naver DB를 통하여 얻은 named entity 정보를 입력으로 사용한다. 실험결과 cluster 방법으로 문제를 변형하고, sigmoid를 output layer의 activation function으로 사용하고 cross entropy cost function을 이용하여 network를 학습시켰을 때 F1 0.9873으로 가장 좋은 성능을 보였다.