• 제목/요약/키워드: Entity embedding

검색결과 36건 처리시간 0.022초

혼합증강현실에서 라이브 행동자와 실체 표현을 위한 표준 모델 (Standard Model for Live Actor and Entity Representation in Mixed and Augmented Reality)

  • 류관희
    • 방송공학회논문지
    • /
    • 제21권2호
    • /
    • pp.192-199
    • /
    • 2016
  • 혼합증강현실 기술은 순수 현실세계와 순수 가상세계를 제외한 증강현실과 증강 가상을 포함하여 현실세계와 가상세계를 혼합하는 내용을 다룬다. 혼합증강현실에서 현실세계에서 움직이는 라이브행동자와 실체(LAE: live actor and entity)가 3D 가상공간과 혼합하여 자연스럽게 표현될 수 있으면, 원격 3D 몰입 회의, 3D 가상 체험 교육 서비스 등이 가능하다. 따라서 본 논문에서는 LAE를 3D 가상공간에 자연스럽게 혼합하고, 서로서로 상호작용할 수 모델을 표준 제안한다. 제안한 모델을 기반으로 LAE의 혼합과 상호작용이 수행될 수 있다.

CR-M-SpanBERT: Multiple embedding-based DNN coreference resolution using self-attention SpanBERT

  • Joon-young Jung
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.35-47
    • /
    • 2024
  • This study introduces CR-M-SpanBERT, a coreference resolution (CR) model that utilizes multiple embedding-based span bidirectional encoder representations from transformers, for antecedent recognition in natural language (NL) text. Information extraction studies aimed to extract knowledge from NL text autonomously and cost-effectively. However, the extracted information may not represent knowledge accurately owing to the presence of ambiguous entities. Therefore, we propose a CR model that identifies mentions referring to the same entity in NL text. In the case of CR, it is necessary to understand both the syntax and semantics of the NL text simultaneously. Therefore, multiple embeddings are generated for CR, which can include syntactic and semantic information for each word. We evaluate the effectiveness of CR-M-SpanBERT by comparing it to a model that uses SpanBERT as the language model in CR studies. The results demonstrate that our proposed deep neural network model achieves high-recognition accuracy for extracting antecedents from NL text. Additionally, it requires fewer epochs to achieve an average F1 accuracy greater than 75% compared with the conventional SpanBERT approach.

Comparative study of text representation and learning for Persian named entity recognition

  • Pour, Mohammad Mahdi Abdollah;Momtazi, Saeedeh
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.794-804
    • /
    • 2022
  • Transformer models have had a great impact on natural language processing (NLP) in recent years by realizing outstanding and efficient contextualized language models. Recent studies have used transformer-based language models for various NLP tasks, including Persian named entity recognition (NER). However, in complex tasks, for example, NER, it is difficult to determine which contextualized embedding will produce the best representation for the tasks. Considering the lack of comparative studies to investigate the use of different contextualized pretrained models with sequence modeling classifiers, we conducted a comparative study about using different classifiers and embedding models. In this paper, we use different transformer-based language models tuned with different classifiers, and we evaluate these models on the Persian NER task. We perform a comparative analysis to assess the impact of text representation and text classification methods on Persian NER performance. We train and evaluate the models on three different Persian NER datasets, that is, MoNa, Peyma, and Arman. Experimental results demonstrate that XLM-R with a linear layer and conditional random field (CRF) layer exhibited the best performance. This model achieved phrase-based F-measures of 70.04, 86.37, and 79.25 and word-based F scores of 78, 84.02, and 89.73 on the MoNa, Peyma, and Arman datasets, respectively. These results represent state-of-the-art performance on the Persian NER task.

Improving methods for normalizing biomedical text entities with concepts from an ontology with (almost) no training data at BLAH5 the CONTES

  • Ferre, Arnaud;Ba, Mouhamadou;Bossy, Robert
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.20.1-20.5
    • /
    • 2019
  • Entity normalization, or entity linking in the general domain, is an information extraction task that aims to annotate/bind multiple words/expressions in raw text with semantic references, such as concepts of an ontology. An ontology consists minimally of a formally organized vocabulary or hierarchy of terms, which captures knowledge of a domain. Presently, machine-learning methods, often coupled with distributional representations, achieve good performance. However, these require large training datasets, which are not always available, especially for tasks in specialized domains. CONTES (CONcept-TErm System) is a supervised method that addresses entity normalization with ontology concepts using small training datasets. CONTES has some limitations, such as it does not scale well with very large ontologies, it tends to overgeneralize predictions, and it lacks valid representations for the out-of-vocabulary words. Here, we propose to assess different methods to reduce the dimensionality in the representation of the ontology. We also propose to calibrate parameters in order to make the predictions more accurate, and to address the problem of out-of-vocabulary words, with a specific method.

의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법 (Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques)

  • 단홍조우;이용주
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.801-808
    • /
    • 2022
  • 대규모 링크드 데이터에 어떻게 지식을 임베딩하고, 엔티티 매칭을 위해 어떻게 신경망 모델을 적용할 것인가에 대한 연구는 상대적으로 많이 부족한 상황이다. 이에 대한 가장 근본적인 문제는 서로 다른 레이블이 어휘 이질성을 초래한다는 것이다. 본 논문에서는 이러한 어휘 이질성 문제를 해결하기 위해 재정렬 구조를 결합한 확장된 GCN(Graph Convolutional Network) 모델을 제안한다. 제안된 모델은 기존 임베디드 기반 MTransE 및 BootEA 모델과 비교하여 각각 53% 및 40% 성능이 향상되었으며, GCN 기반 RDGCN 모델과 비교하여 성능이 5.1% 향상되었다.

심층 생성모델 기반 합성인구 생성 성능 향상을 위한 개체 임베딩 분석연구 (Entity Embeddings for Enhancing Feasible and Diverse Population Synthesis in a Deep Generative Models)

  • 권동현;오태호;유승모;강희찬
    • 한국ITS학회 논문지
    • /
    • 제22권6호
    • /
    • pp.17-31
    • /
    • 2023
  • 활동기반 모델은 현대의 복잡한 개인의 통행행태를 반영한 정교한 기반의 수요예측이 가능하지만, 분석 대상지의 상세한 인구정보가 필수적으로 요구된다. 최근 다양한 심층생성 모델을 활용한 합성인구 생성 기법이 개발되었고, 설문조사를 통해 수집된 샘플 데이터에 존재하지 않는 실제 인구와 유사한 인구 특성을 모사한 데이터를 생성해내는 방법론이 제시되었다. 이는 이산형으로 이루어진 샘플 데이터를 연속형 데이터로 변환하여 분포 영역을 정의한 뒤 생성된 표본 데이터의 거리를 정교하게 계산하여, 불가능한 인구 특성 조합을 억제하는 방식으로 데이터의 확률 분포를 학습한다. 하지만 데이터 변환 과정에 활용되는 개체 임베딩이 잘 학습되지 않으면 의도와 다르게 왜곡된 연속형 분포 영역이 정의될 수 있고, 원본 데이터 표현의 오류로 인한 잘못된 합성인구를 생성할 가능성이 존재한다. 따라서 본 연구에서는 정확도 높은 임베딩을 추출하여 간접적으로 합성인구 생성 성능을 증가시키고자 한다. 결과적으로 합성인구의 다양성과 정확성 측면에서 기존 대비 약 28.87% 성능이 향상하였다.

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식 (Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables)

  • 유홍연;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF