• 제목/요약/키워드: 전이 기반 구문분석

검색결과 19건 처리시간 0.026초

Graph Neural Networks을 이용한 한국어 의존 구문 분석 (Graph Neural Networks for Korean Dependency Parsing)

  • 민진우;홍승연;이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.537-539
    • /
    • 2019
  • 구문 분석은 문장의 구조를 분석하는 자연어처리 분야로 그래프 기반 방법과 전이 기반 방법으로 나뉘어 연구되어 왔다. 본 논문에서는 그래프 기반 방식에서 높은 성능을 보이고 있는 Deep Biaffine 어텐션 모델에 별도의 High-Order 정보 추출 없이 Graph Neural Network(GNNs)을 이용하여 High-Order 정보를 학습할 수 있도록 확장한 Deep Biaffine 어텐션 GNNs을 적용하여 한국어 세종 구문 분석 셋에서 UAS : 94.44%, LAS : 92.55%의 성능을 달성하였으며 Dual Decomposition을 통해 전이 기반 한국어 구문 분석 모델과 결합하여 추가적인 성능 향상을 보였다.

  • PDF

딥 러닝을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Deep Learning)

  • 이창기;김준석;김정희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-91
    • /
    • 2014
  • 일반적인 기계학습 기반의 자연어처리 모듈의 개발에서 자질의 설계와 최적의 자질 조합을 구하는 작업은 많은 시간과 노력이 필요하다. 본 논문에서는 딥 러닝 기술을 전이 기반 방식의 한국어 의존 구문 분석에 적용하여 자질 튜닝 작업에 들어가는 많은 시간과 노력을 줄일 수 있음을 보인다. 또한 딥 러닝을 적용하기 위해 필요한 다양한 단어 표현(word embedding) 모델을 적용하여 최적의 단어 표현 모델을 알아내고, 성능 향상을 위해 최근에 개발된 Drop-out 및 Rectified Linear hidden Unit(ReLU) 기술을 적용한다. 실험결과, 기존 한국어 의존 구문 분석 연구들보다 높은 UAS 90.37%의 성능을 보였다.

  • PDF

Bidirectional LSTM을 이용한 전이기반 한국어 의존 구문분석 (Transition-Based Korean Dependency Parsing using Bidirectional LSTM)

  • 하태빈;이태현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.527-529
    • /
    • 2018
  • 초기 자연언어처리에 FNN(Feedforward Neural Network)을 적용한 연구들에 비해 LSTM(Long Short-Term Memory)은 현재 시점의 정보뿐만 아니라 이전 시점의 정보를 담고 있어 문장을 이루는 어절들, 어절을 이루는 형태소 등 순차적인(sequential) 데이터를 처리하는데 좋은 성능을 보인다. 본 논문에서는 스택과 버퍼에 있는 어절을 양방향 LSTM encoding을 이용한 representation으로 표현하여 전이기반 의존구문분석에 적용하여 현재 UAS 89.4%의 정확도를 보였고, 자질 추가 및 정제작업을 통해 성능이 개선될 것으로 보인다.

  • PDF

다양한 앙상블 알고리즘을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Various Ensemble Models)

  • 조경철;김주완;김균엽;박성진;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-545
    • /
    • 2019
  • 본 논문은 최신 한국어 의존 구문 분석 모델(Korean dependency parsing model)들과 다양한 앙상블 모델(ensemble model)들을 결합하여 그 성능을 분석한다. 단어 표현은 미리 학습된 워드 임베딩 모델(word embedding model)과 ELMo(Embedding from Language Model), Bert(Bidirectional Encoder Representations from Transformer) 그리고 다양한 추가 자질들을 사용한다. 또한 사용된 의존 구문 분석 모델로는 Stack Pointer Network Model, Deep Biaffine Attention Parser와 Left to Right Pointer Parser를 이용한다. 최종적으로 각 모델의 분석 결과를 앙상블 모델인 Bagging 기법과 XGBoost(Extreme Gradient Boosting) 이용하여 최적의 모델을 제안한다.

  • PDF

뉴럴 전이 기반 한국어 의존 파싱 & 의미역 결정 통합 모델 (Neural transition-based joint models for dependency Parsing and semantic role labeling of Korean)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2018
  • 기존의 의미역 결정은 먼저 구문 분석을 수행한 후에 해당 구문 분석 결과를 이용해 의미역 결정 테스크에 적용하는 파이프라인 방식으로 진행한다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 구문 파싱과 의미 파싱에 대해 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱과 의미역 파싱을 동시에 진행하도록 전이 액션을 확장한 의존 파싱 & 의미역 결정 통합 모델을 제안하고 실험 결과, Korean Prop Bank 의미역 결정 데이터 셋에서 파이프라인 방식 전이 기반 방식을 사용한 모델보다 논항 인식 및 분류(AIC) 성능에서 F1 기준 0.14% 높은 결과을 보인다.

  • PDF

순환 신경망을 이용한 전이 기반 한국어 의존 구문 분석 (Korean Transition-based Dependency Parsing with Recurrent Neural Network)

  • 이건일;이종혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.567-571
    • /
    • 2015
  • 기존의 전이 기반 한국어 의존 구문 분석 방법론들은 사용 될 자질의 설계에 많은 노력이 필요하다. 최근에 인공 신경망을 이용하여 자질 설계 단계에서의 시간과 노력을 줄이는 연구들이 많이 수행되었으나 제한된 context의 정보들만 보고 전이 과정에 필요한 decision을 내려야 하는 문제점들이 있다. 본 논문에서는 순환 신경망 모델을 이용하여 자질 설계에 필요한 노력을 줄이고 순환 구조로 먼 거리 의존관계를 고려하였다. 실험을 진행한 결과 일반적인 다층 신경망에 비해 0.51%의 성능향상을 이루었으며 UAS 90.33%의 성능을 선보인다.

강화된 지배소-의존소 제약규칙을 적용한 의존구문분석 모델 : 심층학습과 언어지식의 결합 (Dependency parsing applying reinforced dominance-dependency constraint rule: Combination of deep learning and linguistic knowledge)

  • 신중민;조상현;박승렬;최성기;김민호;김미연;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.289-294
    • /
    • 2022
  • 의존구문분석은 문장을 의존관계(의존소-지배소)로 분석하는 구문분석 방법론이다. 현재 사전학습모델을 사용한 전이 학습의 딥러닝이 좋은 성능을 보이며 많이 연구되지만, 데이터셋에 의존적이며 그로 인한 자료부족 문제와 과적합의 문제가 발생한다는 단점이 있다. 본 논문에서는 언어학적 지식에 기반한 강화된 지배소-의존소 제약규칙 에지 알고리즘을 심층학습과 결합한 모델을 제안한다. TTAS 표준 가이드라인 기반 모두의 말뭉치로 평가한 결과, 최대 UAS 96.28, LAS 93.19의 성능을 보였으며, 선행연구 대비 UAS 2.21%, LAS 1.84%의 향상된 결과를 보였다. 또한 적은 데이터셋으로 학습했음에도 8배 많은 데이터셋 학습모델 대비 UAS 0.95%의 향상과 11배 빠른 학습 시간을 보였다. 이를 통해 심층학습과 언어지식의 결합이 딥러닝의 문제점을 해결할 수 있음을 확인하였다.

  • PDF

Deep Bi-affine Network와 스택 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 (Korean Dependency Parsing Using Deep Bi-affine Network and Stack Pointer Network)

  • 안휘진;박찬민;서민영;이재하;손정연;김주애;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.689-691
    • /
    • 2018
  • 의존 구문 분석은 자연어 이해 영역의 대표적인 과제 중 하나이다. 본 논문에서는 한국어 의존 구분 분석의 성능 향상을 위해 Deep Bi-affine Network 와 스택 포인터 네트워크의 앙상블 모델을 제안한다. Bi-affine 모델은 그래프 기반 방식, 스택 포인터 네트워크의 경우 그래프 기반과 전이 기반의 장점을 모두 사용하는 모델로 서로 다른 모델의 앙상블을 통해 성능 향상을 기대할 수 있다. 두 모델 모두 한국어 어절의 특성을 고려한 자질을 사용하였으며 세종 의존 구문 분석 데이터에 대해 UAS 90.60 / LAS 88.26(Deep Bi-affine Network), UAS 92.17 / LAS 90.08(스택 포인터 네트워크) 성능을 얻었다. 두 모델에 대한 앙상블 기법 적용시 추가적인 성능 향상을 얻을 수 있었다.

  • PDF

구문요소의 전치에 기반한 문서 워터마킹 (Text Watermarking Based on Syntactic Constituent Movement)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.79-84
    • /
    • 2009
  • 이 논문은 한국어 문장을 대상으로 구문요소의 전치를 기반으로 한 문서 워터마킹 방법을 제안한다. 한국어와 같은 교착어는 구문요소의 순서가 자유롭기 때문에 구문 트리 기반의 자연어 워터마킹을 위한 좋은 환경을 제공한다. 본 논문에서 제안하는 자연어 워터마킹 방법은 7단계로 구성되어 있다. 첫째, 문장의 구문분석을 수행한다. 다음으로, 구문요소가 해당 절의 범위 안에서만 전치되도록 범위를 한정하기 위하여 구문 트리로부터 각 절을 분할한다. 세 번째로, 전치를 위한 목표 구문요소를 선택한다. 네 번째, 목표 구문요소의 전치 후에도 문장의 의미나 문체의 변화가 최소화되도록 가장 자연스러운 전이위치를 결정한다. 그 후, 목표 구문요소에 대한 워터마크 비트를 삽입한다. 여섯 번째 단계로, 워터마크 비트가 목표 구문요소의 전치 방향과 상응하지 않으면 구문 트리에서 목표 구문요소를 전치한다. 마지막으로 변환된 구문 트리에서 워터마킹된 문서를 얻는다. 실험 결과를 통해 본 논문에서 제안한 방법의 적용률은 91.53%이고, 최종 워터마킹된 문장들 중 부자연스러운 문장의 비율은 23.16%로서 기존 시스템들보다 좋은 결과를 보여준다. 또한 워터마킹된 문장이 원시 문장과 같은 문체를 유지하고, 의미적인 왜곡없이 같은 정보를 나타내고 있다.

기계독해 기반 한국어 의존 파싱 (Korean Dependency Parsing as Machine Reading Comprehension)

  • 민진우;나승훈;신종훈;김영길;김강일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.270-273
    • /
    • 2021
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔고 그 중 그래프 기반 의존 파싱 방법은 문장 내의 모든 단어에 대해 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻고 트리를 생성하는 방법이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 서브트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 서브 트리의 정보를 이용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(서브트리-서브트리)로의 서브트리 정보를 이용할 수 있도록 하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 소폭의 성능향상을 얻었다.

  • PDF