• 제목/요약/키워드: multi-sense skip-gram

검색결과 1건 처리시간 0.014초

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램 (Modified multi-sense skip-gram using weighted context and x-means)

  • 정현우;이은령
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.389-399
    • /
    • 2021
  • 최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재 하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.