• Title/Summary/Keyword: Entity-based

Search Result 755, Processing Time 0.031 seconds

Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking (사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식)

  • Kim, Jungwook;Whang, Taesun;Kim, Bongsu;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

Big data/AI-based smart maritime logistics chatbot service (빅데이터/AI 기반 스마트 해상물류 챗봇 서비스)

  • Park, Sang-Jun;Lee, Yoon-Pyo;Jeong, Won-Seok;Choi, Yong-Tae;Hong, Jin-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1349-1352
    • /
    • 2021
  • 본 학술지는 기존의 공공 행정서비스에서의 복잡한 업무처리를 간단하게 처리할 수 있는 FAQ 형태의 챗봇서비스를 제안한다. 본 논문이 제안하는 주요 특징은 다음과 같다. 버튼, 대화, STT(Speech To Text)를 통한 사용자 기반 UI/UX를 제공한다. 딥러닝을 통한 Synonym, Typo를 검출하여 가장 높은 정확도의 Entity로 변환해준다. 이를 통해, 사용자는 해상물류 서비스를 이용하는데 있어 부담감을 해소하고 편리함을 얻을 수 있다.

Development of Detection of Adverse Drug Reactions based on Named Entity Recognition and Keyword Network Analysis (개체명 인식과 키워드 네트워크 분석을 활용한 약물 이상 반응 탐지 시스템 개발)

  • Chae-Yeon Lee;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.670-672
    • /
    • 2023
  • 본 논문에서는 소셜 미디어 약물 리뷰 데이터로부터 약물 이상 반응을 탐지하는 모델인 FC-BERT 를 기반으로 소셜 네트워크 분석을 활용하여 웹 애플리케이션을 구현하였다. FC-BERT 모델을 거쳐 나온 개체명 인식 결과 중에 같은 의미를 가진 서로 다른 약물 이상 반응 표현들을 MedDRA 부작용 사전을 참고하여 하나의 MedDRA 용어로 표준화하여 매핑했다. 해당 결과에 소셜 네트워크 분석 기법을 적용하여 생성한 상위 15 개의 ADR 동시 출현 그래프를 상위 30 개의 워드 클라우드와 함께 시각화하여 보여주는 웹 애플리케이션을 개발했다. 동시 출현 그래프는 가장 많은 리뷰에서 동시에 나타나는 ADR 쌍을 보여준다. 본 논문에서 제안한 웹 애플리케이션은 사람마다 다르게 나타나는 다양한 약물 이상 반응을 사용자에게 좀 더 접근성이 좋게 제공할 수 있을 것으로 보인다.

Comparing Features, Models and Training for Span-based Entity Extraction (스팬 기반 개체 추출을 위한 자질, 모델, 학습 방법 비교)

  • Seungwoo Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.388-392
    • /
    • 2023
  • 개체 추출은 정보추출의 기초를 구성하는 태스크로, 관계 추출, 이벤트 추출 등 다양한 정보추출 태스크의 기반으로 중요하다. 최근에는 다중 레이블 개체와 중첩 개체를 다루기 위해 스팬기반의 개체추출이 주류로 연구되고 있다. 본 논문에서는 스팬을 표현하는 다양한 매핑과 자질들을 살펴보고 개체추출의 성능에 어떤 영향을 주는지를 분석하여 최적의 매핑 및 자질 조합을 제시하였다. 또한, 모델 구조에 있어서, 사전 학습 언어모델(PLM) 위에 BiLSTM 블록의 추가 여부에 따른 성능 변화를 분석하고, 모델의 학습에 있어서, 미세조정(finetuing) 이전에 예열학습(warmup training)을 사용하는 것이 효과적인지를 실험을 통해 비교 분석하여 제시하였다.

  • PDF

A Model for Minimum Price Search of Processed Food Items on Online Platforms Based on Quantity and Weight (온라인 가공식품의 수량과 중량에 따른 최저가격 검색 모델)

  • Tae-Min Choi;Heui-Seok Lim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.458-460
    • /
    • 2023
  • 가공식품이라는 특정 도메인에서는 기존 검색엔진에서 많이 활용되는 BM25 만을 가지고 최저가 검색하는 데는 어려움이 있다. 본 논문에서는 BM25 외에도 검색의 정확성을 높이기 위해 HuggingFace 에 공개되어 있는 KoELECTRA 를 활용하여 개체명 인식(Named Entity Recognition 과 이진 분류모델(Binary Classification)을 Fine-tuning 하고 BM25 와 연계하여 구축한 검색시스템을 제안한다. 기존의 BM25 대비 성능 평가를 통해 효과를 검증하였다.

Morpheme-Based Few-Shot Learning with Large Language Models for Korean Healthcare Named Entity Recognition (한국어 헬스케어 개체명 인식을 위한 거대 언어 모델에서의 형태소 기반 Few-Shot 학습 기법)

  • Su-Yeon Kang;Gun-Woo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.428-429
    • /
    • 2023
  • 개체명 인식은 자연어 처리의 핵심적인 작업으로, 특정 범주의 명칭을 문장에서 식별하고 분류한다. 이러한 기술은 헬스케어 분야에서 진단 지원 및 데이터 관리에 필수적이다. 그러나 기존의 사전 학습된 모델을 특정 도메인에 대해 전이학습하는 방법은 대량의 데이터에 크게 의존하는 한계를 가지고 있다. 본 연구는 방대한 데이터로 학습된 거대 언어 모델(LLM) 활용을 중심으로, 한국어의 교착어 특성을 반영하여 형태소 정보를 활용한 Few-Shot 프롬프트를 통해 한국어 헬스케어 도메인에서의 개체명 인식 방법을 제안한다.

A Knowledge-based Electrical Fire Cause Diagnosis System using Fuzzy Reasoning (퍼지추론을 이용한 지식기반 전기화재 원인진단시스템)

  • Lee, Jong-Ho;Kim, Doo-Hyun
    • Journal of the Korean Society of Safety
    • /
    • v.21 no.3 s.75
    • /
    • pp.16-21
    • /
    • 2006
  • This paper presents a knowledge-based electrical fire cause diagnosis system using the fuzzy reasoning. The cause diagnosis of electrical fires may be approached either by studying electric facilities or by investigating cause using precision instruments at the fire site. However, cause diagnosis methods for electrical fires haven't been systematized yet. The system focused on database(DB) construction and cause diagnosis can diagnose the causes of electrical fires easily and efficiently. The cause diagnosis system for the electrical fire was implemented with entity-relational DB systems using Access 2000, one of DB development tools. Visual Basic is used as a DB building tool. The inference to confirm fire causes is conducted on the knowledge-based by combined approach of a case-based and a rule-based reasoning. A case-based cause diagnosis is designed to match the newly occurred fire case with the past fire cases stored in a DB by a kind of pattern recognition. The rule-based cause diagnosis includes intelligent objects having fuzzy attributes and rules, and is used for handling knowledge about cause reasoning. A rule-based using a fuzzy reasoning has been adopted. To infer the results from fire signs, a fuzzy operation of Yager sum was adopted. The reasoning is conducted on the rule-based reasoning that a rule-based DB system built with many rules derived from the existing diagnosis methods and the expertise in fire investigation. The cause diagnosis system proposes the causes obtained from the diagnosis process and showed possibility of electrical fire causes.

EVMS Database System Implementation for interworking of WBS & CBS based management in Construction Works (건설공사의 활동·내역 연동관리를 위한 기성관리운영시스템(EVMS) 데이터 모델링 및 구현)

  • Park, Hong-Tae;Lee, Bu-Hyung
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.6
    • /
    • pp.2851-2858
    • /
    • 2011
  • The schedule management in construction project have been performed independently by two method, WBS base management and CBS based management, However, the integrated management model is needed according to efficiency of construction project management and introduction of new EVMS system of KOREA government. For this purpose, interworking database system is designed through efficient modeling of WBS based management data and CBS based management data and relation establishment between entities in this paper. WBS based management DB consists of 4 entities and CBS based management DB consists of 3 entity and one of the 4 WBS DB entities is used to play interworking role between WBS and CBS, Also, attributes of all entities are well defined so that data consistency, integrity and newest are guaranteed. The designed interworking database model was realized using Nex-Pert Pro and the efficiency of data interworking was proved.

Development and Application of Analysis & Design Methodology for Web-based System (웹 기반 시스템의 분석 및 설계 방법론 개발과 적용)

  • Jung, Byung-Kwon;Kim, Dong-Soo;Song, Jae-Hyeong;Hwang, Chong-Sun
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.8 no.2
    • /
    • pp.155-166
    • /
    • 2002
  • Even the short history of the Web system, the technology related to the Web system has been developed rapidly. Yet, the quality of the Web-based application software has not been improved that much. For this reason, the efficient method to develop the Web-based application software is needed. This paper describes the items necessary to develop the Web-based application software. On the basis of ISO/IEC 12207-Software Life Cycle Processes this paper mainly suggests the analysis and design stage of the Web-based model for developing software. Also, this paper describes the methods to define the process and the entity for applying contents to Web-based application software. With the web-based model suggested in this paper the Web-RoadMap Methodology of KCC Information & Communication, a system provider in Korea, has been applied to the public-domain projects. Through the application, Web-RoadMap Methodology has been proved to be an applicable model for analyzing and designing the systems based on the web environments.