• 제목/요약/키워드: Elmo

검색결과 14건 처리시간 0.02초

KoELMo: 한국어를 위한 문맥화된 단어 표상 (KoELMo: Deep Contextualized word representations for Korean)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.296-298
    • /
    • 2018
  • 기존의 Word2Vec이나 Glove 등의 단어 임베딩 모델은 문맥에 상관없이 단어의 Vector들이 고정된 Vector를 가지는 문제가 있다. ELMo는 훈련된 Bi-LSTM 모델을 통해서 문장마다 Word Embedding을 수행하기 때문에 문맥에 상관없이 고정된 Vector를 가지는 문제를 해결하였다. 본 논문에서는 한국어와 같이 형태적으로 복잡한 언어의 경우 수 많은 단어가 파생될 수 있어 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있기 때문에 형태소의 표상들을 결합하여 단어 표상을 사용한 ELMo를 제안한다. ELMo 단어 임베딩을 Biaffine attention 파싱 모델에 적용 결과 UAS에서 91.39%, LAS에서 90.79%으로 기존의 성능보다 향상된 성능을 얻었다.

  • PDF

ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using ELMo and Multi-head Attention)

  • 박성식;오신혁;김홍진;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

Sentence BERT 임베딩을 이용한 과편향 뉴스 판별 (Hypernews Detection using Sentence BERT Embedding)

  • 임정우;황태선;오동석;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.388-391
    • /
    • 2019
  • 과편향 뉴스 판별(hyperpartisan news detection)은 뉴스 기사가 특정 인물 또는 정당에 편향되었는지 판단하는 task이다. 이를 위해 feature-based ELMo + CNN 모델이 제안되었으나, 이는 문서 임베딩이 아닌 단어 임베딩의 평균을 사용한다는 한계가 존재한다. 따라서 본 논문에서는 feature-based 접근법을 따르며 Sentence-BERT(SentBERT)의 문서 임베딩을 이용한 feature-based SentBERT 기반의 과편향 뉴스 판별 모델을 제안한다. 제안 모델의 효과를 입증하기 위해 ELMO, BERT, SBERT와 CNN, BiLSTM을 적용한 비교 실험을 진행하였고, 기존 state-of-the-art 모델보다 f1-score 기준 1.3%p 높은 성능을 보였다.

  • PDF

다양한 앙상블 알고리즘을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Various Ensemble Models)

  • 조경철;김주완;김균엽;박성진;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-545
    • /
    • 2019
  • 본 논문은 최신 한국어 의존 구문 분석 모델(Korean dependency parsing model)들과 다양한 앙상블 모델(ensemble model)들을 결합하여 그 성능을 분석한다. 단어 표현은 미리 학습된 워드 임베딩 모델(word embedding model)과 ELMo(Embedding from Language Model), Bert(Bidirectional Encoder Representations from Transformer) 그리고 다양한 추가 자질들을 사용한다. 또한 사용된 의존 구문 분석 모델로는 Stack Pointer Network Model, Deep Biaffine Attention Parser와 Left to Right Pointer Parser를 이용한다. 최종적으로 각 모델의 분석 결과를 앙상블 모델인 Bagging 기법과 XGBoost(Extreme Gradient Boosting) 이용하여 최적의 모델을 제안한다.

  • PDF

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 (E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model)

  • 최준영;임희석
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.33-39
    • /
    • 2020
  • 자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

Comparison of the Organophosphorus Hydrolase Surface Display Using InaVN and Lpp-OmpA Systems in Escherichia coli

  • Karami, Ali;Latifi, Ali Mohamad;Khodi, Samaneh
    • Journal of Microbiology and Biotechnology
    • /
    • 제24권3호
    • /
    • pp.379-385
    • /
    • 2014
  • The purpose of this study was to compare the ability of an engineered Escherichia coli to degrade chlorpyrifos (Cp) using an organophosphorus hydrolase enzyme, encoded in both Flavobacterium sp. ATCC 27551 or Pseudomonas diminuta, by employing the Lpp-OmpA chimera and the N-terminal domain of the ice nucleation protein as anchoring motifs. Tracing of the expression location of the recombinant protein using SDS-PAGE showed the presentation of OPH by both anchors on the outer membrane. This is the first report on the presentation of OPH on the cell surface by Lpp-OmpA under the control of the T7 promoter. The results showed cell growth in the presence of Cp as the sole source of energy, without growth inhibition, and with higher whole-cell activity for both cells harboring plasmids pENVO and pELMO, at approximately 10,342.85 and 10,857.14 U/mg, respectively. Noticeably, the protein displayed by pELMO was lower than the protein displayed by pENVO. It can be concluded that Lpp-OmpA can display less protein, but more functional OPH protein. These results highlight the high potential, of both engineered bacteria, for use in the bioremediation of pesticide-contaminated sources in the environment.

문맥 표현 기반 한국어 영화평 감성 분석 (Contextualized Embedding-based Korean Movie Review Sentiment Analysis)

  • 박천음;김건영;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2018
  • 감성 분석은 특정 대상에 대한 의견을 수집하고 분류하는 과정이다. 그러나 자연어에 담김 사람의 주관을 파악하는 일은 어려운 일로써, 기존의 감성 단어 사전이나 확률 모델은 이러한 문제를 해결하기 어려웠으나 딥 러닝의 발전으로 문제 해결을 시도할 수 있게 됐다. 본 논문에서는 사전 학습된 문맥 표현을 한국어 감성 분석에 활용하여 더 높은 성능을 낼 수 있음을 보인다.

  • PDF

문맥 표현과 음절 표현 기반 포인터 네트워크를 이용한 한국어 상호참조해결 (Contextualized Embedding- and Character Embedding-based Pointer Network for Korean Coreference Resolution)

  • 박천음;이창기;류지희;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-242
    • /
    • 2018
  • 문맥 표현은 Recurrent neural network (RNN)에 기반한 언어 모델을 학습하여 얻은 여러 층의 히든 스테이트(hidden state)를 가중치 합(weighted sum)을 하여 얻어낸 벡터이다. Convolution neural network (CNN)를 이용하여 음절 표현을 학습하는 경우, 데이터 내에서 발생하는 미등록어를 처리할 수 있다. 본 논문에서는 음절 표현 CNN 기반의 포인터 네트워크와 문맥 표현을 함께 이용하는 방법을 제안하고, 이를 상호참조해결에 적용한다. 실험 결과, 질의응답 데이터셋에서 CoNLL F1 57.88%로 규칙기반에 비하여 11.09% 더 좋은 성능을 보였다.

  • PDF

Modeling concrete fracturing using a hybrid finite-discrete element method

  • Elmo, Davide;Mitelman, Amichai
    • Computers and Concrete
    • /
    • 제27권4호
    • /
    • pp.297-304
    • /
    • 2021
  • The hybrid Finite-Discrete Element (FDEM) approach combines aspects of both finite elements and discrete elements with fracture mechanics principles, and therefore it is well suited for realistic simulation of quasi-brittle materials. Notwithstanding, in the literature its application for the analysis of concrete is rather limited. In this paper, the proprietary FDEM code ELFEN is used to model concrete specimens under uniaxial compression and indirect tension (Brazilian tests) of different sizes. The results show that phenomena such as size effect and influence of strain-rate are captured using this modeling technique. In addition, a preliminary model of a slab subjected to dynamic shear punching due to progressive collapse is presented. The resulting fracturing pattern of the impacted slab is similar to observations from actual collapse.