• Title/Summary/Keyword: 한글정보자원

Search Result 102, Processing Time 0.017 seconds

A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT (반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO)

  • Kim, Shin-Woo;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Lee, Seong-Hyeon;Choi, Soo-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

A Study of Null Instantiated Frame Element Resolution for Construction of Dialog-Level FrameNet (대화 수준 FrameNet 구축을 위한 생략된 프레임 논항 복원 연구)

  • Noh, Youngbin;Heo, Cheolhun;Hahm, Younggyun;Jeong, Yoosung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.227-232
    • /
    • 2020
  • 본 논문은 의미역 주석(Semantic Role Labeling) 자원인 FrameNet을 준구어 말뭉치인 드라마 대본에 주석하는 과정과 주석 결과에 대해 서술한다. 본 논문에서는 프레임 - 프레임 논항 구조의 주석 범위를 한 문장에서 여러 발화로 이루어진 장면 (Scene) 단위의 대본으로 확장하여 문장 내에서 생략된 프레임 논항(Null-Instantiated Frame Elements)을 장면 단위 대본 내의 다른 발화에서 복원하였다. 본 논문은 프레임 자동 분석기를 통해 동일한 드라마의 한국어, 영어 대본에 FrameNet 주석을 한 드라마 대본을 선발된 주석자에 의해 대상 어휘 적합성 평가, 프레임 적합성 평가, 생략된 프레임 논항 복원을 실시하고, 자동 주석된 대본과 주석자 작업 후의 대본 결과를 비교한 결과와 예시를 제시한다. 주석자가 자동 주석된 대본 중 총 2,641개 주석 (한국어 1,200개, 영어 1,461개)에 대하여 대상 어휘 적합성 평가를 실시하여 한국어 190개 (15.83%), 영어 226개 (15.47%)의 부적합 대상 어휘를 삭제하였다. 프레임 적합성 평가에서는 대상 어휘에 자동 주석된 프레임의 적합성을 평가하여 한국어 622개 (61.68%), 영어 473개 (38.22%)의 어휘에 대하여 새로운 프레임을 부여하였다. 생략된 프레임 논항을 복원한 결과 작업된 평균 프레임 논항 개수가 한국어 0.780개에서 2.519개, 영어 1.290개에서 2.253개로 증가하였다.

  • PDF