• Title/Summary/Keyword: 한국어 의존 파싱

Search Result 35, Processing Time 0.048 seconds

A Transition based Joint Model for Korean POS Tagging & Dependency Parsing using Deep Learning (딥러닝을 이용한 전이 기반 한국어 품사 태깅 & 의존 파싱 통합 모델)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.97-102
    • /
    • 2017
  • 형태소 분석과 의존 파싱은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있다. 이러한 핵심적인 역할을 수행하는 형태소 분석과 의존 파싱에 대해 일괄적으로 학습하는 통합 모델에 대한 필요성이 대두 되었고 이에 대한 많은 연구들이 수행되었다. 기존의 형태소 분석 & 의존 파싱 통합 모델은 먼저 형태소 분석 및 품사 태깅에 대한 학습을 수행한 후 이어서 의존 파싱 모델을 학습하는 파이프라인 방식으로 진행되었다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 형태소 분석과 파싱이 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱에서 형태소 분석에 대한 전이 액션을 포함하도록 전이 액션을 확장하여 한국어 형태소 분석 & 의존파싱에 대한 통합모델을 제안하였고 성능 측정 결과 세종 형태소 분석 데이터 셋에서 F1 97.63%, SPMRL '14 한국어 의존 파싱 데이터 셋에서 UAS 90.48%, LAS 88.87%의 성능을 보여주어 기존의 의존 파싱 성능을 더욱 향상시켰다.

  • PDF

Third-order Dependency Parsing of Korean (3차 의존 파싱에 기반한 한국어 구문 분석)

  • Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.78-80
    • /
    • 2014
  • 본 논문에서는 한국어 구문 분석을 위해 3차 의존 파싱 방법을 적용한 성능 결과를 제시한다. 3차 의존 파싱에서는 조부모 (grandparent) 노드 정보까지 참조함으로써 2차 자질의 한계를 넘어 보다 복잡하고 다양한 자질을 고려할 수 있다. 실험 결과 3차 의존 파싱은 기존의 2차 한국어 의존 파싱의 성능을 향상시켰다.

  • PDF

A Transition based Joint Model for Korean POS Tagging & Dependency Parsing using Deep Learning (딥러닝을 이용한 전이 기반 한국어 품사 태깅 & 의존 파싱 통합 모델)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.97-102
    • /
    • 2017
  • 형태소 분석과 의존 파싱은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있다. 이러한 핵심적인 역할을 수행하는 형태소 분석과 의존 파싱에 대해 일괄적으로 학습하는 통합 모델에 대한 필요성이 대두 되었고 이에 대한 많은 연구들이 수행되었다. 기존의 형태소 분석 & 의존 파싱 통합 모델은 먼저 형태소 분석 및 품사 태깅에 대한 학습을 수행한 후 이어서 의존 파싱 모델을 학습하는 파이프라인 방식으로 진행되었다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 형태소 분석과 파싱이 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱에서 형태소 분석에 대한 전이 액션을 포함하도록 전이 액션을 확장하여 한국어 형태소 분석 & 의존파싱에 대한 통합모델을 제안하였고 성능 측정 결과 세종 형태소 분석 데이터 셋에서 F1 97.63%, SPMRL '14 한국어 의존 파싱 데이터 셋에서 UAS 90.48%, LAS 88.87%의 성능을 보여주어 기존의 의존 파싱 성능을 더욱 향상시켰다.

  • PDF

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

Korean Dependency Parsing as Machine Reading Comprehension (기계독해 기반 한국어 의존 파싱)

  • Min, Jinwoo;Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Young-Kil;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.270-273
    • /
    • 2021
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔고 그 중 그래프 기반 의존 파싱 방법은 문장 내의 모든 단어에 대해 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻고 트리를 생성하는 방법이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 서브트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 서브 트리의 정보를 이용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(서브트리-서브트리)로의 서브트리 정보를 이용할 수 있도록 하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 소폭의 성능향상을 얻었다.

  • PDF

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어 표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

Korean Dependency Parsing using Second-Order TreeCRF (Second-Order TreeCRF를 이용한 한국어 의존 파싱)

  • Min, Jinwoo;Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.108-111
    • /
    • 2020
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔으며 현재 가장 높은 성능을 보이고 있는 그래프 기반 파서인 Biaffine 어텐션 모델은 입력 시퀀스를 다층의 LSTM을 통해 인코딩 한 후 각각 별도의 MLP를 적용하여 의존소와 지배소에 대한 표상을 얻고 이를 Biaffine 어텐션을 통해 모든 의존소에 대한 지배소의 점수를 얻는 모델이다. 위의 Biaffine 어텐션 모델은 별도의 High-Order 정보를 활용하지 않는 first-order 파싱 모델이며 학습과정에서 어떠한 트리 관련 손실을 얻지 않는다. 본 연구에서는 같은 부모를 공유하는 형제 노드에 대한 점수를 모델링하고 정답 트리에 대한 조건부 확률을 모델링 하는 Second-Order TreeCRF 모델을 한국어 의존 파싱에 적용하여 실험 결과를 보인다.

  • PDF

Korean Dependency Parser Using Subcategorization Information of Predicates (술어 하위범주화 정보를 이용한 한국어 의존 파서)

  • Jang, Myung-Gil;Lee, Hyun-A;Park, Jae-Deuk;Park, Dong-In;Hwang, Do-Sam
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.452-463
    • /
    • 1996
  • 의존 문법을 사용한 의존 파싱에서 기본적인 단어(품사정보)들 사이의 의존 관계 검사에 의한 파싱 방법은 불필요한 의존 관계의 생성을 가져온다. 이러한 과생성을 해결하기 위하여 파싱 단계에서 보다 정교한 의존 파싱을 통해서 불필요한 의존 관계의 생성을 최소한으로 줄이는 방법에 대한 연구가 필요하다. 본 논문은 의존 파싱에서 최소한의 의존 관계를 생성하기 위하여 후보 의존소가 지배가능경로 상에서 술어 지배소와의 의존 관계 검사 시에 술어의 하위범주화 정보를 이용하는 효율적인 의존 파싱 방법을 제안한다. 이것은 의존 파싱의 다음 처리 단계인 의존 제약의 적용에 훨씬 부담을 덜어 줄 수 있다.

  • PDF

Korean Dependency Parsing Model based on Transition System using Head Final Constraint (지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델)

  • Lim, Joon-Ho;Yoon, Yeo-Chan;Bae, Yongjin;Im, Su-Jong;Kim, Hyunki;Lee, Kyu-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.81-86
    • /
    • 2014
  • 한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

  • PDF

Korean Dependency Parsing Using Statistical/Semantic Information (통계/의미 정보를 이용한 한국어 의존 파싱)

  • Jang, Myung-Gil;Ryu, Pum-Mo;Park, Jae-Deuk;Park, Dong-In;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.313-319
    • /
    • 1997
  • 한국어 의존 파싱에서는 불필요한 의존관계의 과다한 생성과 이에 따른 다수의 구문분석 결과 생성에 대처하는 연구가 필요하다. 본 논문에서는 한국어 의존 파싱 과정에서 생기는 불 필요한 의존관계에 따른 다수의 후보 의존 트리들에 대하여 통계/의미 정보를 활용하여 최적 트리를 결정하는 구문 분석 방법을 제안한다. 본 논문의 구문 분석에서 사용하는 통계/의미 정보는 구문구조부착 말뭉치(Tree Tagged Corpus)를 이용하여 구축한 술어 하위범주화 정보 사전에서 얻었으며, 이러한 정보를 활용한 구문 분석은 한국어 구문 분석의 모호성 해소에 적용되어 한국어 구문 분석의 정확도를 높인다.

  • PDF