• Title/Summary/Keyword: 정보 추출

Search Result 14,091, Processing Time 0.039 seconds

Korean Noun Extraction Using Exclusive Segmental ion Information and Post-noun morpheme sequences (분석 배제 정보와 후절어를 이용한 한국어 명사추출)

  • Lee, Do-Gil;Ryu, Won-Ho;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.19-25
    • /
    • 2000
  • 명사 추출기는 정보검색, 문서분류, 문서요약, 정보추출 등의 분야에서 사용되고 있으며, 정확한 명사 추출과 빠른 색인 속도는 이들 시스템 성능과 밀접한 관계가 있다. 한국어에서 명사를 추출하기 위해서는 형태소 분석이 필요한데, 본 논문에서는 대량의 품사부착된 말뭉치로부터 추출한 분석배제 정보와 후절어를 이용함으로써 형태소 분석을 생략하거나 보다 단순한 처리에 의해 명사를 추출하는 방법을 제안한다. 또한 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복원 정보를 사용하여 음운 현상을 처리하는 방법을 제안한다. 실험결과에 의하면, 제안된 방법에 의한 명사추출기는 비교적 높은 정확률과 재현율을 나타내며, 빠른 속도를 보였다.

  • PDF

Event Sentence Extraction for Information Extraction (정보 추출을 위한 이벤트 문장 추출)

  • Kim, Tae-Hyun;Lim, Soo-Jong;Yun, Bo-Hyun;Park, Sang-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.325-331
    • /
    • 2002
  • 정보추출 시스템의 목적은 관심의 대상이 되는 특정 정보를 선택적으로 찾아내 제시하는데 있다. 따라서 도메인 정보에 의존적인 방법으로 정보추출이 이루어질 수밖에 없고, 이에 따른 도메인 정보 구축의 부담이 컸다. 이러한 부담을 줄이기 위해 본 연구에서는 특정 주제영역과 관련한 문서로부터 자동으로 이벤트 문장을 추출하는 시스템을 제안한다. 이벤트 문장이란, 특정도메인에서 다루어지는 이벤트의 구체적인 내용을 포함하고 있는 문장이다. 이러한 문장을 추출함으로써 기본적인 수준의 정보추출 요구를 만족시킬 수 있을 뿐만 아니라, 주출된 이벤트 문장을 도메인 정보 구축에 활용할 수 있을 것이다. 본 연구에서는 동사, 명사, 명사구, 및 3W 자질을 이용하여 문장추출의 성능을 최대화하기 위한 방안을 제안하고, 세 개의 평가 도메인을 대상으로 실험을 수행하였다. 실험 결과, when 및 where 자질과 동사, 명사. 명사구의 가중치를 이용하여 문장 가중치를 계산함으로써 최적의 이벤트 문장추출 성능을 얻을 수 있음을 알 수 있었다.

  • PDF

Traffic Sign Recognition Using Color and Shape Information (색과 형태 정보를 이용한 교통 안전 표지판 인식)

  • 이승우;김욱현
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.141-144
    • /
    • 2000
  • 본 논문은 교통 안전 표지판 인식에 적용이 가능한 새로운 영상의 특징 정보 추출 방법을 제안한다. 제안된 방법은 인간의 인식 시스템에서 이용하는 기본 특징인 색과 형태정보를 이용하여 영상 인식에 적용한다. 색 정보의 추출은 RGB성분의 히스토그램 분포를 이용하고 형태 정보의 추출은 기하학적인 형태 정보 추출 방법과 모멘트를 이용한다. 본 논문은 유사 영상 검색을 위한 새로운 특징 정보 추출 방법과 간단한 특징 정보 표현 그리고 계산량의 감소 효과를 얻었다.

  • PDF

A Relational Information Extraction System from Biomedical Literature (생의학 문헌에서의 관계 정보 추출 시스템)

  • Lim, Joon-Ho;Lim, Jase-Soo;Jang, Hyun-Chul;Park, Soo-Jun
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.932-937
    • /
    • 2007
  • 생의학 분야 문헌의 양이 빠르게 증가함에 따라, 생의학 연구자들이 필요로 하는 정보를 얻기가 어렵게 되었다. 이를 해결하기 위해, 인간-컴퓨터 상호작용 분야에서는 생의학 문헌 검색 시스템, 또는 생의학 문헌의 정보 추출 시스템 등에 대한 연구가 진행되고 있다. 본 논문에서는 생의학 문헌으로부터 정보를 자동으로 추출하기 위한 관계정보 추출 시스템에 대해 소개한다. 소개하는 시스템은 크게 요약 수집 모듈, 관계 추출 모듈, 관계 가시화 모듈로 구성되어 있다. 우선, 요약 수집 모듈에서는 특정 주제의 문헌들을 검색 및 수집한다. 그리고, 관계 추출 모듈에서는 수집된 문헌들에 대해서, 단백질/유전자 등의 생물학 개체를 인식하고, 구문분석을 통하여 인식된 개체들 사이의 관계를 추출한다. 마지막으로, 관계 가시화 모듈에서는 추출된 관계를 통합하여 네트워크 형태로 가시화한다. 이 시스템은 생물학 실험 이전의 문헌 기반 타당성 검사, 단백질-단백질 상호작용 또는 특정 질병과 유전자의 조절관계 분석, 또는 대용량 문헌 처리를 통한 패스웨이 데이터베이스 구축 등에 활용될 수 있다.

  • PDF

Comparing Features, Models and Training for Span-based Entity Extraction (스팬 기반 개체 추출을 위한 자질, 모델, 학습 방법 비교)

  • Seungwoo Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.388-392
    • /
    • 2023
  • 개체 추출은 정보추출의 기초를 구성하는 태스크로, 관계 추출, 이벤트 추출 등 다양한 정보추출 태스크의 기반으로 중요하다. 최근에는 다중 레이블 개체와 중첩 개체를 다루기 위해 스팬기반의 개체추출이 주류로 연구되고 있다. 본 논문에서는 스팬을 표현하는 다양한 매핑과 자질들을 살펴보고 개체추출의 성능에 어떤 영향을 주는지를 분석하여 최적의 매핑 및 자질 조합을 제시하였다. 또한, 모델 구조에 있어서, 사전 학습 언어모델(PLM) 위에 BiLSTM 블록의 추가 여부에 따른 성능 변화를 분석하고, 모델의 학습에 있어서, 미세조정(finetuing) 이전에 예열학습(warmup training)을 사용하는 것이 효과적인지를 실험을 통해 비교 분석하여 제시하였다.

  • PDF

A Study on Detection of Carcinoma Cell of Uterine Cervical Using Marker Information and Directional Information (마커 정보와 방향성 정보를 이용한 자궁 경부진 암종세포 추출에 관한 연구)

  • Lee, Dong-gyun;Kim, Kwang-baek
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.364-368
    • /
    • 2009
  • 자궁경부암은 다른 암과 달리 전암(前癌) 단계가 존재하므로 조기에 발견할 경우 생존율이 높다. 그러나 검체 적정성의 부족과 검체 체취의 오류로 인해 질병이 있음에도 음성으로 나타나는 위음성률이 높다. 따라서 본 논문에서는 세포 도말검사에서 사용되는 자궁 경부진 세포에서 암종 세포를 추출하는 방법을 제안한다. 영상의 배경 그리고 핵과 세포질 영역의 구분이 중요하기 때문에 조기 자궁 경부 세포진 영상에서 핵의 추출은 Lighting Compensation을 적용하여 영상을 보정하고, 명암도 분포가 가장 작은 B 채널과 명암도 분포가 높은 R채널과의 OR 연산을 적용한 후, $3{\times}3$마스크를 이용하여 잡음을 제거한다. 잡음이 제거된 영상을 이진화하고 Grassfire 알고리즘을 이용하여 암종 세포의 후보 객체를 추출한다. 추출된 세포 객체에서 핵의 크기, 핵의 면적과 핵의 외곽의 방향성 정보를 이용하여 백혈구와 잡음으로 구성된 객체를 제거한다. 세포 도말검사 과정에서 겹쳐진 부분은 거리 함수와 명암도를 이용하여 마커를 추출하고 추출된 마커 정보와 워터쉐드 알고리즘을 적용하여 겹쳐진 암종 세포를 분리한다. 자궁경부 편평 세포진 400 배율 영상과 자궁 경부 상피내 종양 400 배율 영상을 대상으로 실험한 결과, 기존의 자궁 경부진 암종 세포 추출 방법보다 효과적으로 암종 세포 영역이 추출되는 것을 확인하였다.

  • PDF

Design of a Contextual Lexical Knowledge Graph Extraction Algorithm (맥락적 어휘 지식 그래프 추출 알고리즘의 설계)

  • Nam, Sangha;Choi, Gyuhyeon;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

Keyword Extraction for Korean Language Q&A (국어정보 질의응답을 위한 키워드 추출)

  • Jong, Jong-Seok;Lee, Su-In;Lee, Hyun-A
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

A Technique for Improving Relation Extraction Performance using Entity Information in Language Model (언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법)

  • Hur, Yuna;Oh, Dongsuk;Whang, Taesun;Lee, Seolhwa;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.124-127
    • /
    • 2020
  • 관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.

  • PDF

Upper Bound of Tabular Method for Korean Spatial Relation Extraction (표 방법을 이용한 한국어 공간 관계 추출의 상한 계산)

  • Min, Tae Hong;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.301-304
    • /
    • 2018
  • 기존의 공간 관계 추출은 관계 속성 추출 후 적합한 개체와의 관계 형성이 불명확한 점과 한 개체가 다중관계에 속할 때 관계 형성이 불확실한 문제가 있다. 이를 해결하기 위하여 본 논문은 최근 개체명 관계 추출에서 사용하는 표 방법을 공간 관계 추출에 적용하였다. 기존 모델과 제안 모델을 비교하기 위하여 상한 성능을 측정하였으며, 그 결과 제안 모델이 더 우수함을 보였다.

  • PDF