• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.029 seconds

Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction (문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법)

  • Park, SeongSik;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

Implementation of the Automatic Indexing and New Term Processing System for Game Information Retrieval (게임 정보검색을 위한 자동색인 및 신조어 처리 시스템 구현)

  • Lee, Sang-Joon;Ryu, Keun-Ho
    • Annual Conference of KIPS
    • /
    • 2001.04a
    • /
    • pp.51-54
    • /
    • 2001
  • 오늘날 국내외에 인터넷 보급의 대중화가 점차 확대되고 네트워크을 이용하는 게임의 증가에 따라 게임에 관련된 웹 문서에 대한 사용자의 요구가 증가되고 있다. 기존의 수작업에 의한 색인 방식은 많은 전문인력, 시간, 경비등을 필요로 하기 때문에, 기하급수적으로 증가하는 웹 상의 정보를 처리하기에는 이미 그 한계에 이른 실정이다. 이러한 문제점의 해결을 위해 컴퓨터를 이용한 자동색인 시스템의 개발은 매우 중요하고 시급하다. 더구나 게임 분야에서 있어 신조어는 너무나 급속히 생성되고 있다. 따라서 이러한 신조어 처리는 효과적인 자동색인을 위한 중요한 요소이다. 이 논문에서는 사용자들에게 보다 적합하고 안정적인 게임 정보를 제공하기 위해 게임 용어 사전을 이용한 자동색인과 신조어 처리 시스템을 설계, 구현한다. 자동색인 및 신조어 처리를 위해 게임용어사전, TF-IDF, n-gram 추출법을 이용한다.

  • PDF

A Study on the Classify of Character for Newspaper Automatic Recognition System (신문자동인식 시스템을 위한 문자의 분류에 관한 연구)

  • Lee, S.H.;Cheon, J.I.;Cho, Y.J.;NamKung, J.C.
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.209-215
    • /
    • 1989
  • 본 논문에서는 신문자동인식을 위한 신문문자의 분류에 관한 연구를 하였다. 먼저, 문서의 문자를 추출하기 위하여 블럭화를 행한다. 블럭화는 문자열을 찾아 절과절, 단어와 단어 사이를 찾아 분리구간을 정한다음 블럭을 합성 및 분리를 하였다. 다음으로 블럭화된 문자의 종류를 알기 위한 각 문자에 대하여 6 형식 분류를 하여 특성을 조사함으로써 문자분류를 행하였다. 본 연구에서는 실험을 용하여 블럭화는 충실하게 추출이 되어졌고 한글의 모아쓰기 특성과 한문과의 유사한 형식특성 때문에 분류에 어려움이 있었으나 비교적 충실하게 추출하였다.

  • PDF

Automatic Extraction using Morpheme Network for Korean Texts (형태소 네트웍을 이용한 한글 문헌의 자동 키워드 추출)

  • Kim, Chul-Wan;Chang, Jaw-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.363-368
    • /
    • 1994
  • 본 논문은 한글 문헌의 자동 키워드 추출을 위한 새로운 접근 기법을 제시한다. 한글에서 나타나는 형식형태소는 어절내에서 일정한 결합규칙을 가지며 또한 명사구나 동사구에서 보여지는 것처럼 어절간의 연결에도 관계된다. 유한개의 형식형태소를 노드로 하여 구성된 형태소 네트???p은 어휘사전 및 문헌을 통해 링크를 생성하게 되며 형태소분석과정에서 이를 이용하면 명사 추출의 정확성을 높일 수 있고 사전 탐색을 최소화하여 미등록어 추정 및 분석 속도를 향상시킬 수 있다.

  • PDF

구문해석을 이용한 색인어 자동 주출 시스템

  • Han, Seong-Hyeon;Park, Hyeok-Ro;Choe, Gi-Seon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.16-23
    • /
    • 1990
  • 본 논문에서는 자동 색인 시스템 구현에 있어서 형태소 해석뿐만 아니라 구문해석을 응용하면 통계적 방법이나, 간단한 단서에 의한 색인어 추출보다 훨씬 나은 색인어 추출이 가능하다는 것을 보이고 한국어 필수적이 색인어로써 충분한 자질이 있다는 제안을 한다. 또 시스템의 전체적인 흐름과 필수격 처리 과정, 예외적인 자유격의 처리 등에 대한 부분을 설명하고, 결론에서는 사람이 추출한 색인어와 본 시스템의 결과를 비교, 분석한다.

  • PDF

A Machine Learning Approach for Automatic Protein Name Extraction from Journal Articles (기계학습 알고리즘에 근거한 단백질 이름의 자동 추출)

  • 김정호;백은옥;이공주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.259-261
    • /
    • 2004
  • 생물학 분야의 문헌으로부터 유전자 및 단백질 이름을 추출하는 기술은 바이오 텍스트 마이닝 분야의 기반 기술로 그 중요성이 점차 증대되고 있다. 이 연구에서는 생물학 분야 문헌의 초록으로부터 하나의 토큰으로 구성된 single gene name은 물론 여러 개의 토큰으로 이루어진 multi gene name까지 유전자나 단백질의 이름을 자동으로 추출하는 시스템 TagGeN(Tagger for Gene Name)을 제안한다. TagGeN은 기존의 태거와 달리, 문자나 숫자 이외의 기호를 포함한 유전자나 단백질 이름의 품사 처리에 있어 개선 방안을 제시하고, 여러 토큰으로 이루어진 이름의 인식에 있어 나란한 두 토큰이 갖는 태그 정보를 이용한 조건부 확률에 근거하여 Markov 모델을 도입한다. 위와 같은 개선방안을 구현한 TagGeN은 성능면에서 기존의 유사시스템에 비해 recall 20.8%, precision 4.7%의 성능향상을 보임으로써 본 연구에서 제안한 방법론의 효과를 입증한다.

  • PDF

A Star Schema Extraction Algorithm Using Connection Topologies of ER Diagrams (ER 도형의 연결 위상구조를 이용한 스타 스키마 추출 알고리즘)

  • 신성현;김진호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.136-138
    • /
    • 2002
  • 관계형 OLAP 시스템에서는 다차원 분석에 사용될 데이터를 하나의 사실과 여러 개의 차원 테이블로 구성된 스타 스키마로 표현한다. 사실 테이블은 측정치의 속성을 포함하며, 차원 테이블들은 이러한 사실 테이블에서 중심으로 뻗어져 나온 형태로써, 측정치에 대한 정보를 제공한다. 방대한 크기의 OLTP 소스 데이타베이스로부터 사실과 차원 테이블로 구성된 스타 스키마 설계하기 위해서는 풍부한 경험과 많은 시간을 필요로 한다. 따라서 스타 스키마를 효과적으로 설계하기 위한 체계적인 설계 방법이 필요하다. 본 논문에서는 소스 데이터베이스들에 대한 개념적 모델인 ER 도형을 이용하여 여러 개의 사실 엔터티를 추출하는 알고리즘과 이를 통해 자동적으로 스타 스키마를 설계하는 알고리즘을 제시하였다. 스타 스키마가 하나의 사실 테이블에 여러 개의 차원 테이블이 M:1의 관계로 연결되었다는 성질을 활용하여, 이 방법에서는 EH 도형이 연결된 위상 구조를 이용하여 각 엔터티에 연결된 M:1 관계의 개수에 근거하여 사실과 차원을 추출하는 방법을 제시하였다. 본 논문에는 이러한 방법을 통해 데이터 웨어하우스의 스타 스키마들 자동적으로 쉽게 설계하여 소요되는 시간과 노력을 줄일 수 있도록 하였다.

  • PDF

A study on the Algorithm for automated extraction for chemical term in Korean patents (국내 특허 문헌 내 화학 용어 자동 추출을 위한 알고리즘 연구)

  • Lee, Hayoung;Kim, Hongki;Park, Jinwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.273-276
    • /
    • 2019
  • 본 논문에서는 열 및 전기특성 플라스틱 복합수지와 한글에 특화된 인공지능 기술을 개발하기 위한 조성/물성 정보 복합수지 지식베이스를 구축하고자 국내 특허 문헌에서 화학 용어를 추출하고자 한다. 이를 위해 전문용어가 많이 쓰인 특허 문헌의 특수성을 고려하여 UIMA(Unstructured Information Management Architecture) 규칙 기반의 라이브러리를 사용해 한국어 화학 용어 코퍼스를 구축하고 이를 기반으로 딥러닝 알고리즘 중 하나인 Bidirectional LSTM-CRF를 기반으로 특허 문헌에서 화학 용어를 자동으로 추출하는 알고리즘을 연구하고자 한다.

  • PDF

Facial Phrenology Analysis and Automatic Face Avatar Drawing System Based on Internet Using Facial Feature Information (얼굴특징자 정보를 이용한 인터넷 기반 얼굴관상 해석 및 얼굴아바타 자동생성시스템)

  • Lee, Eung-Joo
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.8
    • /
    • pp.982-999
    • /
    • 2006
  • In this paper, we propose an automatic facial phrenology analysis and avatar drawing system based on internet using multi color information and face geometry. In the proposed system, we detect face using logical product of Cr and I which is a components of YCbCr and YIQ color model, respectively. And then, we extract facial feature using face geometry and analyze user's facial phrenology with the classification of each facial feature. And also, the proposed system can make avatar drawing automatically using extracted and classified facial features. Experimental result shows that proposed algorithm can analyze facial phrenology as well as detect and recognize user's face at real-time.

  • PDF

Face Detection based on Skin Color and Deformable Model (스킨 컬러와 변형모델에 기반한 얼굴검출)

  • 김정기;전준철;박구락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.343-345
    • /
    • 2003
  • 본 논문에서는 색상 정보와 변형 모델을 이용한 얼굴 영역 및 얼굴의 특징 영역의 자동 검출 방법을 제시한다. 영상으로부터 획득할 수 있는 정보 중 가장 빠르고 쉽게 얻을 수 있는 정보가 색상 정보이며, 색상정보는 사물을 판단함에 있어서 가장 효율적이면서 컴퓨터의 계산량을 줄일 수 있다는 장점을 갖고 있기 때문에 얼굴 영역 검출 방법으로 많이 이용되고 있다. 본 연구에서는 얼굴영역 및 얼굴 특성 추출함에 있어 컬러모델 사용 시 외부 조명의 영향을 줄여주는 조명 보정 방법을 제시하고, 조명 보정에 의해 평활화된 YCbCr 색상모델에 적용하여 각 성분 특성을 고려한 얼굴영역 및 얼굴의 특성 영역에 해당하는 후보 영역을 검출하는 방법을 제시한다. 검출된 얼굴후보 영역 및 특성 영역은 가변 모델인 동적 윤곽선 모델의 초기값으로 자동 적용되어 윤곽선 모델 적용시 문제점가운데 하나인 초기값 설정문제를 해결함과 동시에 얼굴 및 얼굴 특징 정보의 정확한 윤곽선을 추출하는데 사용된다. 실험 결과 제시된 방법을 적용한 결과 빠르고 효과적으로 얼굴 및 특성 영역을 검출 할 수 있음을 입증 할 수 있었다.

  • PDF