• Title/Summary/Keyword: 단어벡터

Search Result 299, Processing Time 0.038 seconds

Word Sense Classification Using Support Vector Machines (지지벡터기계를 이용한 단어 의미 분류)

  • Park, Jun Hyeok;Lee, Songwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.563-568
    • /
    • 2016
  • The word sense disambiguation problem is to find the correct sense of an ambiguous word having multiple senses in a dictionary in a sentence. We regard this problem as a multi-class classification problem and classify the ambiguous word by using Support Vector Machines. Context words of the ambiguous word, which are extracted from Sejong sense tagged corpus, are represented to two kinds of vector space. One vector space is composed of context words vectors having binary weights. The other vector space has vectors where the context words are mapped by word embedding model. After experiments, we acquired accuracy of 87.0% with context word vectors and 86.0% with word embedding model.

Grammatical morphemes' effect on Korean word vector generation (형식형태소가 한국어 단어 벡터 생성에 미치는 영향)

  • Youn, Junyoung;Kim, Dowon;Min, Tae Hong;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.179-183
    • /
    • 2017
  • 단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

  • PDF

Grammatical morphemes' effect on Korean word vector generation (형식형태소가 한국어 단어 벡터 생성에 미치는 영향)

  • Youn, Junyoung;Kim, Dowon;Min, Tae Hong;Lee, Jae Sung
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.179-183
    • /
    • 2017
  • 단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

  • PDF

Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization (차원감소 단어벡터 시각화를 통한 어휘별 관계 분석)

  • Ko, Kwang-Ho;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables (품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식)

  • Yu, Hongyeon;Ko, Youngjoong
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables (품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식)

  • Yu, Hongyeon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

Korean Word Sense Disambiguation Using BERT (BERT를 이용한 한국어 단어 의미 모호성 해소)

  • Youn, Jun Young;Shin, Hyeong Jin;Park, Jeong Yeon;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.485-487
    • /
    • 2019
  • 단어의 의미 모호성을 해결하기 위한 연구는 오랫동안 지속되어 왔으며, 특히 최근에는 단어 벡터를 이용한 연구가 활발하게 이루어져왔다. 본 논문에서는 문맥 기반 단어 벡터인 BERT를 이용하여 한국어 단어 의미 모호성을 해소하기 위한 방법을 제안하고, 그 실험 결과를 기존의 한국어 단어 의미 모호성 연구 결과와 비교한다.

  • PDF

Deep Learning Application for Core Image Analysis of the Poems by Ki Hyung-Do (딥러닝을 이용한 기형도 시의 핵심 이미지 분석)

  • Ko, Kwang-Ho
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.3
    • /
    • pp.591-598
    • /
    • 2021
  • It's possible to get the word-vector by the statistical SVD or deep-learning CBOW and LSTM methods and theses ones learn the contexts of forward/backward words or the sequence of following words. It's used to analyze the poems by Ki Hyung-do with similar words recommended by the word-vector showing the core images of the poetry. It seems at first sight that the words don't go well with the images but they express the similar style described by the reference words once you look close the contexts of the specific poems. The word-vector can analogize the words having the same relations with the ones between the representative words for the core images of the poems. Therefore you can analyze the poems in depth and in variety with the similarity and analogy operations by the word-vector estimated with the statistical SVD or deep-learning CBOW and LSTM methods.

On Characteristics of Word Embeddings by the Word2vec Model (Word2vec 모델의 단어 임베딩 특성 연구)

  • Kang, Hyungsuc;Yang, Janghoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

Word Sense Disambiguation of Korean Verbs Using Weight Information from Context (가중치 정보를 이용한 한국어 동사의 의미 중의성 해소)

  • Lim, Soo-Jong;Park, Young-Ja;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.425-429
    • /
    • 1998
  • 본 논문은 문맥에서 추출한 가중치 정보를 이용한 한국어 동사의 의미 중의성 해소 모델을 제안한다. 중의성이 있는 단어가 쓰인 문장에서 그 단어의 의미 결정에 영향을 주는 단어들로 의미 결정자 벡터를 구성하고, 사전에서 그 단어의 의미 항목에 쓰인 단어들로 의미 항목 벡터를 구성한다. 목적 단어의 의미는 두 벡터간의 유사도 계산에 의해 결정된다. 벡터간의 유사도 계산은 사전에서 추출된 공기 관계와 목적 단어가 속한 문장에서 추출한 거리와 품사정보에 기반한 가중치 정보를 이용하여 이루어진다. 4개의 한국어 동사에 대해 내부실험과 외부실험을 하였다. 내부 실험은 84%의 정확률과 baseline을 기준으로 50%의 성능향상, 외부 실험은 75%의 정확률과 baseline을 기준으로 40 %의 성능향상을 보인다.

  • PDF