• 제목/요약/키워드: 개체인식

검색결과 447건 처리시간 0.031초

LSTM-CRF를 이용한 생명과학분야 개체명 인식 (Bio-NER using LSTM-CRF)

  • 최경호;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-89
    • /
    • 2015
  • 본 논문에서는 시퀀스 레이블링 문제에 적합하다고 알려진 Long Short Term Memory Recurrent Neural Network에 아웃풋간의 의존관계를 추가한 LSTM-CRF(Conditional Random Field)를 이용하여 생명과학분야 개체명 인식 시스템을 구축하였다. 학습 및 평가를 위해 BioNLP 2011-st REL data를 개체명 인식 실험에 사용하였으며, 실험결과 LSTM-CRF를 사용한 시스템은 81.83의 F1-score를 기록해, 기존의 시스템인 "BANNER"의 F1-score 81.96과 비슷한 성능을 보였다.

  • PDF

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식 (Named Entity Recognition with Structural SVMs and Pegasos algorithm)

  • 이창기;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2010
  • 개체명 인식은 정보 추출의 한 단계로서 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 본 논문에서는 structural Support Vector Machines(structural SVMs) 및 수정된 Pegasos 알고리즘을 이용한 한국어 개체명 인식 시스템에 대하여 기술하고 기존의 Conditional Random Fields(CRFs)를 이용한 시스템과의 성능을 비교한다. 실험결과 structural SVMs과 수정된 Pegasos 알고리즘이 기존의 CRFs 보다 높은 성능을 보였고(신뢰도 99%에서 통계적으로 유의함), structural SVMs과 수정된 Pegasos 알고리즘의 성능은 큰 차이가 없음(통계적으로 유의하지 않음)을 알 수 있었다. 특히 본 논문에서 제안하는 수정된 Pegasos 알고리즘을 이용한 경우 CRFs를 이용한 시스템보다 높은 성능 (TV 도메인 F1=85.43, 스포츠 도메인 F1=86.79)을 유지하면서 학습 시간은 4%로 줄일 수 있었다.

  • PDF

전문용어 및 정보추출에 기반한 문서분류시스템 (Text Categorization Based on Terminology and Information Extraction)

  • 이경순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

KAISER: 워드 임베딩 기반 개체명 어휘 자가 학습 방법을 적용한 개체명 인식기 (KAISER: Named Entity Recognizer using Word Embedding-based Self-learning of Gazettes)

  • 함영균;최동호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-339
    • /
    • 2016
  • 본 논문에서는 한국어 개체명 인식의 성능 향상을 위하여 워드 임베딩을 활용할 수 있는 방법에 대하여 기술한다. 워드 임베딩이란 문장의 단어의 공기정보를 바탕으로 그 단어의 의미를 벡터로 표현하는 분산표현이다. 이러한 분산 표현은 단어 간의 유의미한 정도를 계산하는데 유용하다. 본 논문에서는 이러한 워드 임베딩을 통하여 단어 벡터들의 코사인 유사도를 통한 개체명 사전 자가 학습 및 매칭 방법을 적용하고, 그 실험 결과를 보고한다.

  • PDF

D-Tag를 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using D-Tag)

  • 김은수;도수종;박천음
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2022
  • 본 논문에서는 시퀀스 레이블링 문제(sequence labeling problem)인 개체명 인식에 사용할 새로운 태깅 포맷인 Delimiter tag (D-tag)를 소개한다. 시퀀스 레이블링 문제에서 사용하는 BIO-tag 포맷은 개체명 레이블을 B (beginning)와 I (inside) 의미의 레이블로 확장하여 타겟 클래스의 수가 2배 증가한다. 또한 BIO-tag 포맷을 사용할 경우, 모델이 B와 I 를 잘못 분류하는 문제가 발생하며, 레이블 수가 많은 세부 분류 개체명의 경우에는 label confusion을 야기한다. 본 논문에서 제안한 D-tag 포맷은 타겟 클래스의 수를 증가시키지 않기 때문에 앞서 언급한 문제를 해결할 수 있다. 실험 결과, D-tag를 사용하여 학습한 모델이 BIO-tag를 사용한 경우보다 더 좋은 성능을 보여, 유망함을 확인하였다.

  • PDF

산란피크는 높을수록 좋은가?

  • 김인식
    • 월간양계
    • /
    • 통권102호
    • /
    • pp.57-61
    • /
    • 1978
  • 양계업이 대형화되면서부터 사양관리의 관점은 닭을 개체로 보지 않고 계군 즉 집단으로 판단하고 있다. 그러나 개체로 분류하여보면 계군으로 나타난 통계에 의한 관리가 부분적으로 불합리함을 알게된다. 축산업은 그것이 생명을 다루는 한 개체관리의 관점에서부터 시작되어야 한다. 경영관리에서는 계군을 한 개 집단으로 처리하더라도 기술관리는 닭의 개체에서부터 전체로 진행해야하는 것이다.

  • PDF

Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장 (Expansion of Word Representation for Named Entity Recognition Based on Bidirectional LSTM CRFs)

  • 유홍연;고영중
    • 정보과학회 논문지
    • /
    • 제44권3호
    • /
    • pp.306-313
    • /
    • 2017
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.

문화유산정보 말뭉치 구축을 위한 개체명 및 이벤트 부착 도구 (Named Entity and Event Annotation Tool for Cultural Heritage Information Corpus Construction)

  • 최지예;김명근;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.29-38
    • /
    • 2012
  • 본 논문에서는 문화유산정보 말뭉치 구축을 위한 개체명 및 이벤트 부착 도구를 제안한다. 제안하는 도구를 이용하여 말뭉치 구축자는 문화유산정보 관리에 유용한 시간, 장소, 인물, 사건을 중심으로 개체명과 이벤트를 부착할 수 있다. 이 때, 개체명과 이벤트 부착이 용이하도록, 제안하는 도구에서 줄번호나 어절번호와 같은 개체명이나 이벤트의 위치정보를 자동으로 부착하며, 구축된 개체명이나 이벤트 중에서 하나를 선택하면 해당 문자열을 원문에서 진한 이탤릭체로 표시하여 올바르게 부착되었는지 쉽게 확인할 수 있다. 그리고, 제안하는 도구는 말뭉치 구축자의 수작업을 줄이기 위해서 개체명 자동인식 패턴을 활용한다. 학습말뭉치가 거의 없다는 점을 고려하여 단순한 규칙 패턴을 학습한다. 또한, 오류 전파를 차단하기 위해서, 제안하는 개체명 자동인식 패턴은 개체명 부착 말뭉치에서 추가적인 분석처리 없이 바로 추출한다. 실험결과 제안하는 개체명 및 이벤트 부착 도구는 말뭉치 구축자의 수작업량을 절반이상 줄여주었다.

효율적 대화 정보 예측을 위한 개체명 인식 연구 (A Study on Named Entity Recognition for Effective Dialogue Information Prediction)

  • 고명현;김학동;임헌영;이유림;지민규;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.58-66
    • /
    • 2019
  • 대화 문장 내 고유명사와 같은 개체명에 대한 인식 연구는 효율적 대화 정보 예측을 위한 가장 기본적이며 중요한 연구 분야이다. 목적 지향 대화 시스템에서 가장 주요한 부분은 대화 내 객체가 어떤 속성을 가지고 있느냐 하는 것을 인지하는 것이다. 개체명 인식모델은 대화 문장에 대하여 전처리, 단어 임베딩, 예측 단계를 통해 개체명 인식을 진행한다. 본 연구는 효율적인 대화 정보 예측을 위해 전처리 단계에서 사용자 정의 사전을 이용하고 단어 임베딩 단계에서 최적의 파라미터를 발견하는 것을 목표로 한다. 그리고 설계한 개체명 인식 모델을 실험하기 위해 생활 화학제품 분야를 선택하고 관련 도메인 내 목적 지향 대화 시스템에서 적용 할 수 있는 개체명 인식 모델을 구축하였다.

영역 중심 모멘트와 장선 특징을 이용한 아무르불가사리 다중개체 인식 기법 (Recognition Technology for Multiple Objects of Asterias Amurensis Using Region Central Moment and Long Line Features)

  • 주란희;김성락
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.83-88
    • /
    • 2010
  • 이 논문에서는 다양한 불가사리 영상을 판단하여 불가사리를 인식하는 기법을 제안하고자 한다. 아무르불가사리의 단일개체를 인식하는 경우는 불가사리의 오목 특성과 단선 특성을 이용하여 불가사리 여부를 판단할 수 있으나, 다중개체의 경우는 오목과 단선을 이용한 불가사리의 특징 추출이 불가능하기 때문에 불가사리로 인식할 수 없다. 따라서 다중개체의 영역 중심 모멘트와 장선을 이용하여 장선의 표준편차, 장선별 표준편차 값, 상대각 표준편차, 유효편차수 등의 특징을 이용한 인식 기법을 제안하고자 한다. 제안한 기법의 실험 결과 장선의 표준편차 조건이나 상대각의 유효편차수 조건을 만족하지 못하여 인식에 실패한 경우도 있었으나 약 95%의 높은 인식률을 보였다.