• 제목/요약/키워드: 데이터참조모델

검색결과 279건 처리시간 0.024초

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

시간 지역성과 인기 편향성을 가진 데이터 참조의 모델링 (Modeling of Data References with Temporal Locality and Popularity Bias)

  • 반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.119-124
    • /
    • 2023
  • 본 논문은 시간 지역성과 인기 편향성을 가진 데이터 참조를 나타낼 수 있는 새로운 참조 모델을 제안한다. 기존의 참조 모델 중 대표적인 LRU 스택 모델은 시간 지역성, 즉 최근에 참조된 데이터가 다시 참조될 가능성이 높은 성질을 나타낼 수 있으나, 데이터의 서로 다른 인기도를 고려할 수 없는 약점이 있다. 이와 반대로 데이터의 서로 다른 인기도를 반영할 수 있는 모델로 독립 참조 모델이 있으나, 시간에 따른 데이터 참조 성향의 변화를 모델링할 수 없는 한계가 있다. 본 논문이 제시하는 참조 모델은 이 두 모델의 한계를 극복하여 서로 다른 데이터의 인기도와 시간에 따른 참조 성향의 변화를 모두 반영할 수 있는 특징이 있다. 또한, 본 논문에서는 캐쉬 교체 알고리즘과 참조 모델의 연관성에 대해 살펴보고 제안한 모델의 최적성에 대해 보인다.

형태소 수준의 한국어 상호참조해결 (Korean Coreference Resolution at the Morpheme Level )

  • 조경빈;최요한;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-333
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

  • PDF

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

데이터 품질관리 프로세스 평가를 위한 프로세스 참조모델 (The Process Reference Model for the Data Quality Management Process Assessment)

  • 김선호;이창수
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.83-105
    • /
    • 2013
  • 데이터의 품질을 평가하기 위해서 데이터 자체의 품질을 측정하는 방법과 데이터 품질을 관리하는 프로세스를 측정하는 방법이 활용되고 있다. 최근에는 조직의 데이터 품질을 보장 및 인증하기 위해 데이터 품질관리 프로세스의 성숙도를 측정하는 방법을 활용하고 있다. 이러한 추세에 따라 본 논문에서는 데이터 품질관리의 프로세스 성숙도를 평가하는데 필요한 프로세스 참조모델을 제시한다. 우선 데이터 품질관리 프로세스 성숙도 평가 모델의 개요를 제시한다. 그리고, 프로세스 성숙도 평가에 기본이 되는 프로세스 참조모델을 제시한다. 여기서는 프로세스 도출 방안, 데이터 품질관리의 기본 원칙, SPICE 프로세스 참조 모델의 기본 개념을 기초로 하여 프로세스 참조모델의 구성과 세부 프로세스를 개발하였다. 그리고 본 모델의 특징 및 개선점을 ISO 8000-150의 프로세스와 비교하여 설명하였다.

BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결 (Korean End-to-end Neural Coreference Resolution with BERT)

  • 김기훈;박천음;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

랜덤 포레스트를 이용한 한국어 상호참조 해결 (Coreference Resolution for Korean Using Random Forests)

  • 정석원;최맹식;김학수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.535-540
    • /
    • 2016
  • 상호참조 해결은 문서 내에 존재하는 멘션들을 식별하고, 참조하는 멘션끼리 군집화하는 것으로 정보 추출, 사건 추적, 질의응답과 같은 자연어처리 응용에 필수적인 과정이다. 최근에는 기계학습에 기반한 다양한 상호참조 해결 모델들이 제안되었으며, 잘 알려진 것처럼 이런 기계학습 기반 모델들은 상호참조 멘션 태그들이 수동으로 부착된 대량의 학습 데이터를 필요로 한다. 그러나 한국어에서는 기계학습 모델들을 학습할 가용한 공개 데이터가 존재하지 않는다. 그러므로 본 논문에서는 다른 기계학습 모델보다 적은 학습 데이터를 필요로 하는 효율적인 상호참조 해결 모델을 제안한다. 제안 모델은 시브-가이드 자질 기반의 랜덤 포레스트를 사용하여 상호참조하는 멘션들을 구분한다. 야구 뉴스 기사를 이용한 실험에서 제안 모델은 다른 기계학습 모델보다 높은 0.6678의 CoNLL F1-점수를 보였다.

생물자원 연구데이터의 공동 활용을 위한 데이터 참조모델 개발 (Development of a Data Reference Model for Joint Utilization of Biological Resource Research Data)

  • 권순철;정승렬
    • 인터넷정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.135-150
    • /
    • 2018
  • 세계적으로 생물자원 연구데이터는 그 자체로 중요할 뿐만 아니라, 공유되고 활용되어야 한다. 본 논문에서는 명확한 기준 없이 각각의 연구목적과 특성에 따라 개별적으로 구축, 관리되고 있는 생물자원 연구데이터를 공동 활용 할 수 있도록 정보시스템의 구축 단계부터 적용 가능한 데이터 참조모델을 제시한다. 이를 위해 기존 관련 정보시스템의 데이터 모델을 국내외 표준 및 데이터 관리 정책을 기반으로 확장하여 개별 정보시스템에서 공동 활용 할 수 있는 데이터 참조모델을 개발하고 그 적용 절차를 제안한다. 또한, 제안하는 데이터 참조모델의 우수성을 입증하기 위하여 Krogstie의 데이터모델 평가모형을 적용하여 품질수준을 검증하고 국내외 표준들과의 데이터 공유수준을 비교한다. 실험 결과 기존 데이터 모델보다 데이터를 자원, 대상, 활동, 성과의 4단계로 분류하고 엔티티 도출 및 관계를 정의한 데이터 참조모델에서 데이터의 품질과 공유수준이 높게 나타나는 것을 확인 할 수 있었다.

한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법 (BERT-based Data Augmentation Techniques for Korean Coreference Resolution)

  • 김기훈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.249-253
    • /
    • 2020
  • 상호참조해결은 문서 내에 등장하는 모든 멘션 중에서 같은 의미를 갖는 대상(개체)들을 하나의 집합으로 묶어주는 자연어처리 태스크이다. 한국어 상호참조해결의 학습 데이터는 영어권에 비해 적은 양이다. 데이터 증강 기법은 부족한 학습 데이터를 증강하여 기계학습 기반 모델의 성능을 향상시킬 수 있는 방법 중 하나이며, 주로 규칙 기반 데이터 증강 기법이 연구되고 있다. 그러나 규칙 기반으로 데이터를 증강하게 될 경우 규칙 조건을 만족하지 못했을 때 데이터 증강이 힘들다는 문제점과 임의로 단어를 변경 혹은 삭제하는 과정에서 문맥에 영향을 주는 문제점이 발생할 수 있다. 따라서 본 논문에서는 BERT의 MLM(Masked Language Model)을 이용하여 기존 규칙기반 데이터 증강 기법의 문제점을 해결하고 한국어 상호참조해결 데이터를 증강하는 방법을 소개한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터에서 CoNLL F1 1.39% (TEST) 성능 향상을 보였다.

  • PDF

XML 기반 상품 표현 모델의 구현 및 분석 (Implementation and Analysis of a XML Based Product Description Model)

  • 김경래;하상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1167-1170
    • /
    • 2001
  • 인터넷 중심의 정보화 사회가 되면서 B2C간 또는 B2B간에 상품 정보의 교환이 활발해지고 있다. 본 논문에서는 상품정보 교환을 위한 한 표준으로 이미 제안된 바 있는 XML 기반 통합 상품 표현 모델을 참조하고 구현한다. 이 모델은 다양한 상품정보를 XML에 기반하여 효과적으로 통합하여 표현할 수 있다. 구현은 Java의 컴포넌트 기술인 Java Bean과 EJB를 사용하여 이루어진다. 참조 모델을 사용하면 모든 상품에 공통된 데이터와 본질적인 데이터로 구분하여 기술할 수 있으며, 따라서 상품의 공통된 정보를 통합하여 기술함으로써 데이터의 중복을 피한 수 있다. 논문에서는 참조 모델이 갖는 데이터 중복 제거 효과를 웹 상의 다양한 상품 정보를 대상으로 분석한다.

  • PDF