• 제목/요약/키워드: Bi-LSTM/CRF

검색결과 35건 처리시간 0.031초

Bidirectional LSTM-CRF 모델을 이용한 멘션탐지 (Mention Detection using Bidirectional LSTM-CRF Model)

  • 박천음;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.224-227
    • /
    • 2015
  • 상호참조해결은 특정 개체에 대해 다르게 표현한 단어들을 서로 연관지어 주며, 이러한 개체에 대해 표현한 단어들을 멘션(mention)이라 하며, 이런 멘션을 찾아내는 것을 멘션탐지(mention detection)라 한다. 멘션은 명사나 명사구를 기반으로 정의되며, 명사구의 경우에는 수식어를 포함하기 때문에 멘션탐지를 순차 데이터 문제(sequence labeling problem)로 정의할 수 있다. 순차 데이터 문제에는 Recurrent Neural Network(RNN) 종류의 모델을 적용할 수 있으며, 모델들은 Long Short-Term Memory(LSTM) RNN, LSTM Recurrent CRF(LSTM-CRF), Bidirectional LSTM-CRF(Bi-LSTM-CRF) 등이 있다. LSTM-RNN은 기존 RNN의 그레디언트 소멸 문제(vanishing gradient problem)를 해결하였으며, LSTM-CRF는 출력 결과에 의존성을 부여하여 순차 데이터 문제에 더욱 최적화 하였다. Bi-LSTM-CRF는 과거입력자질과 미래입력자질을 함께 학습하는 방법으로 최근에 가장 좋은 성능을 보이고 있다. 이에 따라, 본 논문에서는 멘션탐지에 Bi-LSTM-CRF를 적용할 것을 제안하며, 각 딥 러닝 모델들에 대한 비교실험을 보인다.

  • PDF

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

Stacked Bi-LSTM-CRF 모델을 이용한 한국어 상품평 감성 분석 (Sentiment Analysis for Korean Product Review Using Stacked Bi-LSTM-CRF Model)

  • 윤준영;박정주;김도원;민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-635
    • /
    • 2018
  • 최근 소셜 커머스 데이터를 이용하여 상품에 대한 소비자들의 수요와 선호도 등을 조사하는 등의 감성분석 연구가 활발히 진행되고 있다. 본 연구에서는 Stacked Bi-LSTM-CRF 모델을 이용하여 한국어의 복합적인 형태로 이루어지는 감성표현에 대하여 어휘단위로 감성분석을 진행하고, 상품의 세부주제(특징, 관심키워드 등)를 추출하여 세부주제별 감성 분석을 할 수 있는 방법을 제안한다.

  • PDF

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기 (Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs)

  • 김혜민;윤정민;안재현;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.3-8
    • /
    • 2016
  • 형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

  • PDF

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기 (Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs)

  • 김혜민;윤정민;안재현;배경만;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2016
  • 형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

  • PDF

Bi-LSTM-CRF 앙상블 모델을 이용한 한국어 공간 정보 추출 (Korean Spatial Information Extraction using Bi-LSTM-CRF Ensemble Model)

  • 민태홍;신형진;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.278-287
    • /
    • 2019
  • 공간 정보 추출은 자연어 텍스트에 있는 정적 및 동적인 공간 정보를 공간 개체와 그들 사이의 관계로 명확히 표시하여 추출하는 것을 말한다. 이 논문은 2단계 양방향 LSTM-CRF 앙상블 모델을 사용하여 한국어 공간 정보를 추출할 수 있는 심층 학습 방법을 제안한다. 또한 공간 개체 추출과 공간 관계 속성 추출을 통합한 모델을 소개한다. 한국어 공간정보 말뭉치(Korean SpaceBank)를 사용하여 실험한 결과 제안한 심층학습 방법이 기존의 CRF 모델보다 우수함을 보였으며, 특히 제안한 앙상블 모델이 단일 모델보다 더 우수한 성능을 보였다.

농식품 가격변동 요인분석을 위한 개체명 인식 (Named Entity Recognition for Analyzing Factors of Agrifood Price Fluctuation)

  • 박찬;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-350
    • /
    • 2020
  • 농식품 가격을 안정적으로 제공하기 위해 농식품 가격 변동에 대한 요인 분석이 필요하다. 본 연구는 농식품 가격 변동의 요인 분석을 위해 인과관계 템플릿을 정의하고, 요약을 위한 개체명 인식 방법을 적용한다. 농식품 일일동향 데이터에 대한 평가에서 딥러닝 기반 BiLSTM-CRF 실험 결과 F1-점수 0.93으로 베이스라인 Bi-LSTM 실험 결과 0.75에 비해 높은 성능을 보였다.

  • PDF

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템 (Loanword Recognition Using Deep Learning)

  • 박호민;김창현;천민아;노경목;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF