Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2017.04a
- /
- Pages.941-944
- /
- 2017
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Distributed Representation of Words with Semantic Hierarchical Information
의미적 계층정보를 반영한 단어의 분산 표현
- Kim, Minho (Dept. of Electrical and Computer Eng., Puan National University) ;
- Choi, Sungki (Dept. of Electrical and Computer Eng., Puan National University) ;
- Kwon, Hyuk-Chul (Dept. of Electrical and Computer Eng., Puan National University)
- Published : 2017.04.27
Abstract
심층 학습에 기반을 둔 통계적 언어모형에서 가장 중요한 작업은 단어의 분산 표현(Distributed Representation)이다. 단어의 분산 표현은 단어 자체가 가지는 의미를 다차원 공간에서 벡터로 표현하는 것으로서, 워드 임베딩(word embedding)이라고도 한다. 워드 임베딩을 이용한 심층 학습 기반 통계적 언어모형은 전통적인 통계적 언어모형과 비교하여 성능이 우수한 것으로 알려져 있다. 그러나 워드 임베딩 역시 자료 부족분제에서 벗어날 수 없다. 특히 학습데이터에 나타나지 않은 단어(unknown word)를 처리하는 것이 중요하다. 본 논문에서는 고품질 한국어 워드 임베딩을 위하여 단어의 의미적 계층정보를 이용한 워드 임베딩 방법을 제안한다. 기존연구에서 제안한 워드 임베딩 방법을 그대로 활용하되, 학습 단계에서 목적함수가 입력 단어의 하위어, 동의어를 반영하여 계산될 수 있도록 수정함으로써 단어의 의미적 계층청보를 반영할 수 있다. 본 논문에서 제안한 워드 임베딩 방법을 통해 생성된 단어 벡터의 유추검사(analog reasoning) 결과, 기존 방법보다 5%가 증가한 47.90%를 달성할 수 있었다.
Keywords