• Title/Summary/Keyword: 한국어 구문분석

Search Result 381, Processing Time 0.021 seconds

Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser (한국어 구문분석 시스템 BCD-KL-Parser의 개발)

  • Kim, Minho;Kim, Seongtae;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning (Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석)

  • Hwang, Hyunsun;Lee, Changki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Korean Dependency Guidelines for Dependency Parsing and Exo-Brain Language Analysis Corpus (의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치)

  • Lim, Joon-Ho;Bae, Yongjin;Kim, Hyunki;Kim, Yunjeong;Lee, Kyu-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.234-239
    • /
    • 2015
  • 2000년대 중반 세종 구구조 구문분석 말뭉치가 배포된 이후 의존 구문분석이 구문분석 연구의 주요 흐름으로 자리 잡으면서 많은 연구자들이 구구조 구문분석 말뭉치를 개별적으로 의존구조로 변환하여 구문분석 연구를 수행하였다. 하지만 한국어 문장의 의존구조 표현에 대한 논의가 부족하여 서로 다른 의존구조로 변환 후 구문분석을 연구함으로써 연구 효율성이 저하되는 문제가 발생하였다 본 연구에서는 이와 같은 문제에 접근하기 위하여 한국어 문장에 대한 의존관계 가이드라인을 제안한다. 그리고 제안하는 가이드라인을 기반으로 구축한 엑소브레인 언어분석 말뭉치(725 문장)에 대해 소개한다.

  • PDF

Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning (Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석)

  • Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Korean Dependency Parsing using Dynamic Oracle (동적 오라클을 이용한 한국어 의존 구문분석)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF

Accurate Unlexicalized Korean Parsing (고성능 비어휘정보 한국어 구문분석)

  • Oh, Jin-Young;Cha, Jeong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.295-298
    • /
    • 2010
  • 본 논문에서는 어휘정보를 사용하는 한국어 구문분석 성능과 거의 비슷한 성능을 내는 비어휘정보 한국어 의존 구문분석에 대해서 설명한다. 본 논문에서는 어휘정보를 대신해서 품사정보와 어절 구문태그 정보를 사용하고 CRFs를 사용하여 레이블링 방법으로 구문분석 한다. 자질을 변경하여 어절 처음에 나타나는 용어 정보와 뒤 어절의 용언 정보를 추가하였다. 본 논문에서 제시하는 실험 결과(어절:85.73%, 문장:43.86%)는 현재 최고의 성능을 내는 어휘정보 사용 한국어 구문분석과 비슷하다. 본 논문에서 제안한 비어휘정보 구문분석 방법은 어휘정보 구문분석에 비해 모델 사이즈가 작고 처리방법이 간단하여 쉽게 다른 도메인에 적용이 가능할 것으로 기대한다.

  • PDF

Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory (모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발)

  • Woo, Soon-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF

Empirical Research on Segmentation Method for Korean Dependency Parsing (한국어 의존 구문 분석의 분석 단위에 관한 실험적 연구)

  • Lee, Jinu;Jo, Hye Mi;Bock, Suyeon;Shin, Hyopil
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.427-432
    • /
    • 2021
  • 현재 한국어 의존 구문 분석의 표준은 어절 단위로 구문 분석을 수행하는 것이다. 그러나 의존 구문 분석의 분석 단위(어절, 형태소)에 대해서는 현재까지 심도 있는 비교 연구가 진행된 바 없다. 본 연구에서는 의존 구문 분석의 분석 단위가 자연어 처리 분야의 성능에 유의미한 영향을 끼침을 실험적으로 규명한다. STEP 2000과 모두의 말뭉치를 기반으로 구축한 형태소 단위 의존 구문 분석 말뭉치를 사용하여, 의존 구문 분석기 모델 및 의존 트리를 입력으로 활용하는 문장 의미 유사도 분석(STS) 및 관계 추출(RE) 모델을 학습하였다. 그 결과, KMDP가 기존 어절 단위 구문 분석과 비교하여 의존 구문 분석기의 성능과 응용 분야(STS, RE)의 성능이 모두 유의미하게 향상됨을 확인하였다. 이로써 형태소 단위 의존 구문 분석이 한국어 문법을 표현하는 능력이 우수하며, 문법과 의미를 연결하는 인터페이스로써 높은 활용 가치가 있음을 입증한다.

  • PDF

Korean Dependency Parsing Using Statistical/Semantic Information (통계/의미 정보를 이용한 한국어 의존 파싱)

  • Jang, Myung-Gil;Ryu, Pum-Mo;Park, Jae-Deuk;Park, Dong-In;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.313-319
    • /
    • 1997
  • 한국어 의존 파싱에서는 불필요한 의존관계의 과다한 생성과 이에 따른 다수의 구문분석 결과 생성에 대처하는 연구가 필요하다. 본 논문에서는 한국어 의존 파싱 과정에서 생기는 불 필요한 의존관계에 따른 다수의 후보 의존 트리들에 대하여 통계/의미 정보를 활용하여 최적 트리를 결정하는 구문 분석 방법을 제안한다. 본 논문의 구문 분석에서 사용하는 통계/의미 정보는 구문구조부착 말뭉치(Tree Tagged Corpus)를 이용하여 구축한 술어 하위범주화 정보 사전에서 얻었으며, 이러한 정보를 활용한 구문 분석은 한국어 구문 분석의 모호성 해소에 적용되어 한국어 구문 분석의 정확도를 높인다.

  • PDF

Korean Dependency Parsing using Dynamic Oracle (동적 오라클을 이용한 한국어 의존 구문분석)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF