• 제목/요약/키워드: 한국어 의존구문분석

검색결과 130건 처리시간 0.022초

계층형 문장 구조 인코더를 이용한 한국어 의미역 결정 (Hierarchical Learning for Semantic Role Labeling with Syntax Information)

  • 김봉수;김정욱;황태선;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-202
    • /
    • 2021
  • 의미역 결정은 입력된 문장 내 어절간의 의미 관계를 예측하기 위한 자연어처리 태스크이며, 핵심 서술어에 따라 상이한 의미역 집합들이 존재한다. 기존의 연구는 문장 내의 서술어의 개수만큼 입력 문장을 확장해 순차 태깅 문제로 접근한다. 본 연구에서는 확장된 입력 문장에 대해 구문 분석을 수행 후 추출된 문장 구조 정보를 의미역 결정 모델의 자질로 사용한다. 이를 위해 기존에 학습된 구문 분석 모델의 파라미터를 전이하여 논항의 위치를 예측한 후 파이프라인을 통해 의미역 결정 모델을 학습시킨다. ALBERT 사전학습 모델을 통해 입력 토큰의 표현을 얻은 후, 논항의 위치에 대응되는 표현을 따로 추상화하기 위한 계층형 트랜스포머 인코더 레이어 구조를 추가했다. 실험결과 Korean Propbank 데이터에 대해 F1 85.59의 성능을 보였다.

  • PDF

XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지 (Detecting Errors in Dependency Treebank through XGBoost and Cross Validation)

  • 최민석;김창현;천민아;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델 (Korean Dependency Parsing Model based on Transition System using Head Final Constraint)

  • 임준호;윤여찬;배용진;임수종;김현기;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-86
    • /
    • 2014
  • 한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

  • PDF

한국어 의존 파싱을 이용한 트리플 관계 추출 (Triplet Extraction using Korean Dependency Parsing Result)

  • 곽수정;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-89
    • /
    • 2013
  • 자연언어 문서에서 지식 추출은 QA 시스템을 비롯한 여러 분야에서 필수적이다. 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현한다. 본 논문에서는 한국어 의존 파서로 문장을 분석하고, 그 결과에서 트리플을 추출하는 방법을 제안했다. 제안된 트리플 추출기는 21개 문장에서 추출된 78개의 트리플 정답 집합과, 64개의 준정답 집합에 대해서 각각 60.75%와 66.67%의 F-measure 성능을 보였다.

  • PDF

한국어 문장 임베딩의 언어적 속성 입증 평가 (A Probing Task on Linguistic Properties of Korean Sentence Embedding)

  • 안애림;고병일;이다니엘;한경은;신명철;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

구문구조부착 말뭉치를 이용한 술어의 하위범주화 정보 구축 (The Construction of Predicate Subcategorization Using Tree Tagged Corpus)

  • 류법모;장명길;박수준;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-121
    • /
    • 1997
  • 한국어 문장에서 술어의 역할이 매우 중요하기 때문에 술어의 하위범주화 정보는 한국어 분석 및 생성에서 필수적이다. 그러나 기존의 한국어 술어의 하위범주화 사전은 전문가의 사전지식이나 직관에 의존하여 만들어졌기 때문에 주관적이고 오류의 가능성이 높으며 많은 수작업이 필요했다. 또 영역에 독립적인 하위범주화 정보를 구축하는 작업은 매우 어렵기 때문에 응용영역에 맞는 하위범주화 정보를 쉽게 구축하는 방법이 요구되었다. 본 논문에서는 구문구조부착 말뭉치를 이용하여 전문가의 제한된 개입만으로 통계정보와 명사의 의미정보를 포함하는 술어의 하위범주화 정보 구축 방법을 제안한다.

  • PDF

BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결 (Korean End-to-end Neural Coreference Resolution with BERT)

  • 김기훈;박천음;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

복합 커널을 사용한 한국어 종속절의 의존관계 분석 (Analyzing dependency of Korean subordinate clauses using a composit kernel)

  • 김상수;박성배;박세영;이상조
    • 인지과학
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2008
  • 한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미정보와 같은 추가적인 정보가 필요할 것으로 판단하고 처리해 왔다. 본 논문에서는 추가적인 정보를 사용하지 알고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보와 정적 정보를 다루는 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결 및 하부절의 표현 유무로 나누었고, 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

  • PDF

DECO-LGG 언어자원 및 의존파서와 LSTM을 활용한 하이브리드 자질기반 감성분석 플랫폼 DecoFESA 구현 (DecoFESA: A Hybrid Platform for Feature-based Sentiment Analysis Based on DECO-LGG Linguistic Resources with Parser and LSTM)

  • 황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-326
    • /
    • 2020
  • 본 연구에서는 한국어 감성분석 성능 향상을 위한 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph) 패턴문법 기술 프레임에 의존파서 및 LSTM을 적용하는 하이브리드 방법론을 제안하였다. 본 연구에 사용된 DECO-LGG 언어자원을 소개하고, 이에 기반하여 의미 정보를 의존파서(D-PARS)와 페어링하는 한편 OOV(Out Of Vocabulary)의 문제를 LSTM을 통해 해결하여 자질기반 감성분석 결과를 제시하였다. 부트스트랩 방식으로 반복 확장될 수 있는 LGG 언어자원 및 알고리즘을 통해 수행되는 자질기반 감성분석 프로세스는 전용 플랫폼 DecoFESA를 통해 그 범용성을 확장하였다. 실험을 위해서 네이버 쇼핑몰의 '화장품 구매 후기글'을 크롤링하였으며, DecoFESA 플랫폼을 통해 현재 구축된 DECO-LGG 언어자원 기반의 감성분석 성능을 평가하였다. 이를 통해 대용량 언어자원의 구축과 이를 활용하기 위한 어휘 시퀀스 처리 알고리즘의 구현이 보다 정확한 자질기반 감성분석 결과를 제공할 수 있음을 확인하였다.

  • PDF

일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets of Japanes)

  • 이진;한지윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.323-328
    • /
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

  • PDF