• 제목/요약/키워드: 워드 임베딩 변환

검색결과 4건 처리시간 0.018초

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

Impact of Word Embedding Methods on Performance of Sentiment Analysis with Machine Learning Techniques

  • Park, Hoyeon;Kim, Kyoung-jae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.181-188
    • /
    • 2020
  • 본 연구에서는 다양한 워드 임베딩 기법이 감성분석의 성과에 미치는 영향을 확인하기 위한 비교연구를 제안한다. 감성분석은 자연어 처리를 사용하여 텍스트 문서에서 주관적인 정보를 식별하고 추출하는 오피니언 마이닝 기법 중 하나이며, 상품평이나 댓글의 감성을 분류하는데 사용될 수 있다. 감성은 긍정적이거나 부정적인 것으로 분류될 수 있기 때문에 일반적인 분류문제 중 하나로 생각할 수 있으며, 이의 분류를 위해서는 텍스트를 컴퓨터가 인식할 수 있는 언어로 변환하여야 한다. 따라서 단어나 문서와 같은 텍스트를 자연어 처리에서 벡터로 변형하여 진행하는데 이를 워드 임베딩이라고 한다. 워드 임베딩 기법은 Bag of Words, TF-IDF, Word2Vec 등 다양한 기법이 사용되고 있는데 지금까지 감성분석에 적합한 워드 임베딩 기법에 대한 연구는 많이 진행되지 않았다. 본 연구에서는 영화 리뷰의 감성분석을 위해 다양한 워드 임베딩 기법 중 Bag of Words, TF-IDF, Word2Vec을 사용하여 그 성과를 비교 분석한다. 분석에 사용할 연구용 데이터 셋은 텍스트 마이닝에서 많이 활용되고 있는 IMDB 데이터 셋을 사용하였다. 분석 결과, TF-IDF와 Bag of Words의 성과가 Word2Vec보다 우수한 것으로 나타났으며 TF-IDF는 Bag of Words보다 성과가 우수하였으나 그 차이가 매우 크지는 않았다.

개인의 감성 분석 기반 향 추천 미러 설계 (Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis)

  • 김현지;오유수
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문에서는 사용자의 감정 분석에 따른 향을 추천하는 스마트 미러 시스템을 제안한다. 본 논문은 자연어 처리 중 임베딩 기법(CounterVectorizer와 TF-IDF 기법), 머신러닝 분류 기법 중 최적의 모델(DecisionTree, SVM, RandomForest, SGD Classifier)을 융합하여 시스템을 구축하고 그 결과를 비교한다. 실험 결과, 가장 높은 성능을 보이는 SVM과 워드 임베딩을 파이프라인 기법으로 감정 분류기 모델에 적용한다. 제안된 시스템은 Flask 웹 프레임워크를 이용하여 웹 서비스를 제공하는 개인감정 분석 기반 향 추천 미러를 구현한다. 본 논문은 Google Speech Cloud API를 이용하여 사용자의 음성을 인식하고 STT(Speech To Text)로 음성 변환된 텍스트 데이터를 사용한다. 제안된 시스템은 날씨, 습도, 위치, 명언, 시간, 일정 관리에 대한 정보를 사용자에게 제공한다.

단어 임베딩 및 벡터 유사도 기반 게임 리뷰 자동 분류 시스템 개발 (Development of An Automatic Classification System for Game Reviews Based on Word Embedding and Vector Similarity)

  • 양유정;이보현;김진실;이기용
    • 한국전자거래학회지
    • /
    • 제24권2호
    • /
    • pp.1-14
    • /
    • 2019
  • 게임은 소프트웨어 특성상 출시 후 사용자들의 반응을 빠르게 파악하여 개선하는 것이 중요하다. 하지만 구글 플레이 앱 스토어 등 사용자들이 게임을 다운로드하고 리뷰를 올릴 수 있는 대부분의 사이트들은 게임 리뷰에 대한 매우 제한적이고 모호한 분류 기능만을 제공한다. 따라서 본 논문에서는 사용자들이 사이트에 올린 게임 리뷰를 보다 명확하고 운영에 유용한 주제들로 자동 분류하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 리뷰에 포함된 단어들을 대표적인 단어 임베딩 모델인 word2vec을 사용하여 벡터들로 변환하고, 이 벡터들과 각 주제 간 유사도를 측정하여 해당 리뷰를 관련된 주제로 분류한다. 특히 분류 성능에 직접적인 영향을 미치는 벡터 간 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 벡터 간 유사도 측정 방법인 유클리디안 유사도, 코사인 유사도, 확장된 자카드 유사도의 성능을 실제 데이터를 사용하여 비교하였다. 또한 어떤 리뷰가 둘 이상의 주제에 해당하는 경우를 위해 임계값에 기반한 다중 분류 방법을 사용하였다. 구글 플레이 앱스토어의 실제 데이터를 사용한 실험 결과 본 시스템은 95%까지의 정확도를 보임을 확인하였다.