• 제목/요약/키워드: 정보추출

검색결과 14,072건 처리시간 0.042초

블록 단위 그래프 모델을 통한 효율적인 정보 추출 Wrapper 생성과 유지 관리 (Effective Information Extraction Wrapper Generation and Maintenance by Using a Block-Based Graph Model)

  • 박주영;양재영;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.322-327
    • /
    • 2007
  • 기존의 정보 추출에서는 웹 문서의 구조가 변경되었을 때 Wrapper가 원하는 정보를 추출할 수 없었다. 또한 웹 문서의 구조가 바뀌는 경우 동일한 정보를 Wrapping함에도 불구하고 사용자는 정보를 추출 할 수 없었던 이유를 찾지 못하는 경우가 대부분이었다. 이 문제를 해결하기 위해 본 논문에서는 Web 페이지를 시각적 블록 단위로 잘라 인접한 블록들을 통해 그래프를 형성하여 웹 문서의 구조가 일부 변경되어도 기존의 Wrapper를 통해 정보를 추출할 수 있도록 보다 효율적으로 Wrapper를 생성하고 유지관리 하는 방법을 제안한다. 또한 웹 문서를 블록 단위로 분할하여 그래프를 생성함으로써 블록 내부에 추출하고자 하는 정보에 대한 규칙이 좀 더 유연하게 표현 될 수 있으며 문서의 구조가 아닌 추출하고자 하는 정보를 중심으로 규칙을 생성함으로써 그래프의 구조뿐 아니라 그래프를 구성하고 있는 블록 내부의 구조가 일부 변하더라도 기존의 규칙을 이용하여 정보를 추출할 수 있도록 하였다.

  • PDF

시변화 가시구조광 깊이 영상 획득을 위한 칼라 패턴 해석 (Pattern Decoding for Depth Map Acquisition System using time-varying structured lights)

  • 추현곤;최진수;김진웅
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 추계학술대회
    • /
    • pp.244-246
    • /
    • 2011
  • 컬러 구조광을 이용한 깊이 정보 획득 시스템에서 구조광의 패턴의 색상 정보를 정확하게 추출하는 것이 중요하다. 본 논문에서는 시변화 가시구조광 시스템을 위한 색상 패턴을 해석하는 방법에 대해서 제안한다. 제안하는 방법은 시변화 가시구조광의 패턴이 투사된 영상으로부터 투사된 색상 정보를 추출하고, 추출된 색상 정보로부터 색상 패턴의 ID를 추출한다. 추출된 정보는 물체에 대한 깊이 정보로 계산될 수 있다. 패턴 ID를 빠르고 정확하게 추출하기 위해 최초의 원 패턴 정보를 기반으로 하여 Look-up 테이블을 구성하고, 이 테이블 정보를 이용하여 초기 패턴 ID 정보를 추출한다. 이후 추출된 패턴 ID에 대해서 신뢰도를 바탕으로 비어있는 정보를 채워준다. 본 논문의 실험에서는 제안하는 방법이 기존의 방법에 비해 정확하면서도 빠르게 색상 패턴 정보를 찾을 수 있음을 보여준다.

  • PDF

맥락적 어휘 지식 그래프 추출 알고리즘의 설계 (Design of a Contextual Lexical Knowledge Graph Extraction Algorithm)

  • 남상하;최규현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

맥락적 어휘 지식 그래프 추출 알고리즘의 설계 (Design of a Contextual Lexical Knowledge Graph Extraction Algorithm)

  • 남상하;최규현;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장 (Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support)

  • 조승현;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

문장 수준 관계 추출을 위한 개체 중심 구문 트리 기반 모델 (Entity-centric Dependency Tree based Model for Sentence-level Relation Extraction)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 2021
  • 구문 트리의 구조적 정보는 문장 수준 관계 추출을 수행하는데 있어 매우 중요한 자질 중 하나다. 기존 관계 추출 연구는 구문 트리에서 최단 의존 경로를 적용하는 방식으로 관계 추출에 필요한 정보를 추출해서 활용했다. 그러나 이런 트리 가지치기 기반의 정보 추출은 관계 추출에 필요한 어휘 정보를 소실할 수도 있다는 문제점이 존재한다. 본 논문은 이 문제점을 해소하기 위해 개체 중심으로 구문 트리를 재구축하고 모든 노드의 정보를 관계 추출에 활용하는 모델을 제안한다. 제안 모델은 TACRED에서 F1 점수 74.9 %, KLUE-RE 데이터셋에서 72.0%로 가장 높은 성능을 보였다.

  • PDF

스팬 기반 개체 추출을 위한 자질, 모델, 학습 방법 비교 (Comparing Features, Models and Training for Span-based Entity Extraction)

  • 이승우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.388-392
    • /
    • 2023
  • 개체 추출은 정보추출의 기초를 구성하는 태스크로, 관계 추출, 이벤트 추출 등 다양한 정보추출 태스크의 기반으로 중요하다. 최근에는 다중 레이블 개체와 중첩 개체를 다루기 위해 스팬기반의 개체추출이 주류로 연구되고 있다. 본 논문에서는 스팬을 표현하는 다양한 매핑과 자질들을 살펴보고 개체추출의 성능에 어떤 영향을 주는지를 분석하여 최적의 매핑 및 자질 조합을 제시하였다. 또한, 모델 구조에 있어서, 사전 학습 언어모델(PLM) 위에 BiLSTM 블록의 추가 여부에 따른 성능 변화를 분석하고, 모델의 학습에 있어서, 미세조정(finetuing) 이전에 예열학습(warmup training)을 사용하는 것이 효과적인지를 실험을 통해 비교 분석하여 제시하였다.

  • PDF

한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축 (Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents)

  • 임채균;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

웹 정보추출의 성능향상을 위한 사용자 관심 부분 추출기의 구현 (Implementation of an Extractor of User Selected Parts for Improvement of Web Information Extraction)

  • 최철희;홍광희;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.673-675
    • /
    • 2005
  • 인터넷이 발전할수록 정보의 양이 늘어나게 되어 방대한 양의 데이터 속에서 적합한 정보를 추출하는 방법이 필요하다. 그리고 같은 데이터라 하더라도 유용한 정보라고 판단하는 것은 개인의 관심도에 따라 다르다. 따라서 우리는 사용자 관심 정보 추출이라는 목표 아래에서 개인간의 차이에도 명확히 정보를 추출할 수 있는 방법의 필요성을 인지하여 정보추출의 사전 단계에서 사용자가 원하는 정보가 있는 블록을 식별하는 방법에 대해서 연구하였다. 사용자가 선호하는 정보가 들어있는 블록들에 대해서만 정보 추출 기법을 적용하면 정확성과 속도면에서 좋은 결과를 얻을 수 있을 것으로 예상된다. 또한 XML-QL[7]형식의 질의를 통해 사용자의 요구 변화에 유연하게 대처하는 방법을 제안한다.

  • PDF

Bidirectional LSTM-CRF 앙상블을 이용한 공간 개체 추출 (Spatial Entities Extraction using Bidirectional LSTM-CRF Ensemble)

  • 민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2017
  • 공간 정보 추출은 대량의 텍스트 문서에서 자연어로 표현된 공간 관련 개체 및 관계를 추출하는 것으로 질의응답 시스템, 챗봇 시스템, 네비게이션 시스템 등에서 활용될 수 있다. 본 연구는 한국어에 나타나 있는 공간 개체들을 효과적으로 추출하기 위한 앙상블 기법이 적용된 Bidirectional LSTM-CRF 모델을 소개한다. 한국어 공간 정보 말뭉치를 이용하여 실험한 결과, 기존 모델보다 매크로 평균이 향상되어 전반적인 공간 관계 추출에 유용할 것으로 기대한다.

  • PDF