• Title/Summary/Keyword: 문장 수준 관계 추출

Search Result 12, Processing Time 0.027 seconds

Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction (문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법)

  • Park, SeongSik;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

Global Relation Extraction for Documents: Regarding Omitted Entities (문서 내 전역 관계 추출: 생략된 개체의 고려)

  • Kim, Kuekyeng;Kim, Gyeongmin;Jo, Jaechoon;Lim, Heuisoek
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.47-49
    • /
    • 2018
  • 최근 존재하는 대부분의 관계 추출 모델은 언급 수준의 관계 추출 모델이다. 이들은 성능은 높지만, 문서에 존재하는 다수의 문장을 처리할 때, 문서 내에 주요 개체 및 여러 문장에 걸쳐서 표현되는 개체간의 관계를 분류하지 못한다. 이는 높은 수준의 관계를 정의하지 못함으로써 올바르게 데이터를 정형화지 못하는 중대한 문제이다. 해당 논문에서는 이러한 문제를 타파하기 위하여 여러 문장에 걸쳐서 개체간의 상호작용 관계도 파악하는 전역 수준의 관계 추출 모델을 제안한다. 제안하는 모델은 전처리 단계에서 문서를 분석하여 사전 지식베이스, 개체 연결 그리고 각 개체의 언급횟수를 파악하고 문서 내의 주요 개체들을 파악한다. 이후 언급 수준의 관계 추출을 통하여 1차적으로 단편적인 관계 추출을 실행하고, 주요개체와 관련된 관계는 외부 메모리에 샘플로 저장한다. 이후 단편적 관계들과 외부메모리를 이용하여 여러 문장에 걸쳐 표현되는 개체 간 관계를 알아낸다. 해당 논문은 이러한 모델의 구조도와 실험방법의 설계에 대하여 설명하였고, 해당 실험의 기대효과 또한 작성하였다.

  • PDF

Entity-centric Dependency Tree based Model for Sentence-level Relation Extraction (문장 수준 관계 추출을 위한 개체 중심 구문 트리 기반 모델)

  • Park, Seongsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.235-240
    • /
    • 2021
  • 구문 트리의 구조적 정보는 문장 수준 관계 추출을 수행하는데 있어 매우 중요한 자질 중 하나다. 기존 관계 추출 연구는 구문 트리에서 최단 의존 경로를 적용하는 방식으로 관계 추출에 필요한 정보를 추출해서 활용했다. 그러나 이런 트리 가지치기 기반의 정보 추출은 관계 추출에 필요한 어휘 정보를 소실할 수도 있다는 문제점이 존재한다. 본 논문은 이 문제점을 해소하기 위해 개체 중심으로 구문 트리를 재구축하고 모든 노드의 정보를 관계 추출에 활용하는 모델을 제안한다. 제안 모델은 TACRED에서 F1 점수 74.9 %, KLUE-RE 데이터셋에서 72.0%로 가장 높은 성능을 보였다.

  • PDF

Directional Predictive Analysis of Pre-trained Language Models in Relation Extraction (관계 추출에서 사전학습 언어모델의 방향성 예측 분석)

  • Hur, Yuna;Oh, Dongsuk;Kang, Myunghoon;Son, Suhyune;So, Aram;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.482-485
    • /
    • 2021
  • 최근 지식 그래프를 확장하기 위해 많은 연구가 진행되고 있다. 지식 그래프를 확장하기 위해서는 relation을 기준으로 entity의 방향성을 고려하는 것이 매우 중요하다. 지식 그래프를 확장하기 위한 대표적인 연구인 관계 추출은 문장과 2개의 entity가 주어졌을 때 relation을 예측한다. 최근 사전학습 언어모델을 적용하여 관계 추출에서 높은 성능을 보이고 있지만, entity에 대한 방향성을 고려하여 relation을 예측하는지 알 수 없다. 본 논문에서는 관계 추출에서 entity의 방향성을 고려하여 relation을 예측하는지 실험하기 위해 문장 수준의 Adversarial Attack과 단어 수준의 Sequence Labeling을 적용하였다. 또한 관계 추출에서 문장에 대한 이해를 높이기 위해 BERT모델을 적용하여 실험을 진행하였다. 실험 결과 관계 추출에서 entity에 대한 방향성을 고려하지 않음을 확인하였다.

  • PDF

A English Composition Level Assessment System Using Machine Learning Techniques (기계학습기법을 이용한 영어작문 문장 수준평가 시스템)

  • Eom, Jin-Hee;Kwak, Dong-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

Meta Learning based Global Relation Extraction trained by Traditional Korean data (전통 문화 데이터를 이용한 메타 러닝 기반 전역 관계 추출)

  • Kim, Kuekyeng;Kim, Gyeongmin;Jo, Jaechoon;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.11
    • /
    • pp.23-28
    • /
    • 2018
  • Recent approaches to Relation Extraction methods mostly tend to be limited to mention level relation extractions. These types of methods, while featuring high performances, can only extract relations limited to a single sentence or so. The inability to extract these kinds of data is a terrible amount of information loss. To tackle this problem this paper presents an Augmented External Memory Neural Network model to enable Global Relation Extraction. the proposed model's Global relation extraction is done by first gathering and analyzing the mention level relation extraction by the Augmented External Memory. Additionally the proposed model shows high level of performances in korean due to the fact it can take the often omitted subjects and objectives into consideration.

Korean Space Event Relation Extraction Using Case-frame (격틀 정보를 이용한 한국어 공간 사건 관계 추출)

  • Kwak, Sujeong;Kim, Bogyum;Park, Yongmin;Lee, Jae Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.798-801
    • /
    • 2014
  • 문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30~35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.

Implementation of Phrase-based Indexing (구 기반 색인 시스템의 구현)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

Hypernetwork Memory-Based Model for Infant's Language Learning (유아 언어학습에 대한 하이퍼망 메모리 기반 모델)

  • Lee, Ji-Hoon;Lee, Eun-Seok;Zhang, Byoung-Tak
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.12
    • /
    • pp.983-987
    • /
    • 2009
  • One of the critical themes in the language acquisition is its exposure to linguistic environments. Linguistic environments, which interact with infants, include not only human beings such as its parents but also artificially crafted linguistic media as their functioning elements. An infant learns a language by exploring these extensive language environments around it. Based on such large linguistic data exposure, we propose a machine learning based method on the cognitive mechanism that simulate flexibly and appropriately infant's language learning. The infant's initial stage of language learning comes with sentence learning and creation, which can be simulated by exposing it to a language corpus. The core of the simulation is a memory-based learning model which has language hypernetwork structure. The language hypernetwork simulates developmental and progressive language learning using the structure of new data stream through making it representing of high level connection between language components possible. In this paper, we simulates an infant's gradual and developmental learning progress by training language hypernetwork gradually using 32,744 sentences extracted from video scripts of commercial animation movies for children.

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF