• 제목/요약/키워드: 데이터추출

검색결과 6,283건 처리시간 0.032초

공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 데이터 소스의 비중복 추출기법 (Non Duplicated Extract Method of Heterogeneous Data Sources for Efficient Spatial Data Load in Spatial Data Warehouse)

  • 이동욱;백성하;김경배;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권2호
    • /
    • pp.143-150
    • /
    • 2009
  • 공간 데이터웨어하우스는 공간 DBMS 또는 다양한 소스데이터로부터 시간에 따라 추출된 공간데이터를 ETL 과정을 통해 가공된 데이터를 관리하는 시스템이다. 적재 주기 마다 추출된 공간데이터는 비공간 데이터와 달리 같은 주제의 중복된 공간 정보가 유용하지 않으며, 공간 데이터의 특징으로 저장 공간의 낭비가 크다. 또한 이기종간의 시스템에서 소스 데이터를 추출할 경우 서로 다른 공간데이터 타입 및 스키마를 가지고 있어 이를 위한 공간데이터 추출 기법이 요구된다. 기존 기법에서는 기준이 되는 Geocoding DB를 이용하여 추출된 공간데이터에 대한 주소 매칭과정을 수행함으로써, 정형화된 데이터 셋을 적재한다. 하지만 이 기법은 추출 데이터를 매번 Geocoding DB와 비교 연산이 발생하며, 주제별로 공간 데이터를 통합 관리함에 따라 이 기종 공간 DBMS 사이에 중복된 데이터를 고려하지 않는 문제점이 있다. 본 논문에서는 공간 데이터웨어하우스 구축기 내에서 이 기종의 소스 시스템으로부터 추출된 갱신질의 통합을 이용한 효율적 추출 기법을 제안한다. 이는 이 기종의 공간 DBMS로부터 발생한 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등의 업데이트 관련 질의만을 추출하여 공간데이터의 불필요한 추출 연산 비용을 제거한다. 또한 소스 공간 데이터베이스 관리시스템의 업데이트 질의를 이용하여 추출된 공간 데이터를 주제별로 중복 제거 및 통합 한다. 제안 기법은 데이터 중복 저장에 의한 저장 공간의 낭비를 줄이고, 적재시점 별 통합된 데이터를 적재함으로써 빠른 공간데이터 분석을 지원할 수 있다.

  • PDF

웹 기반 데이터베이스로부터의 유용한 데이터 추출 기법의 설계 및 응용 (Design and application of effective data extraction technique from Web databases)

  • 황두성
    • 한국산학기술학회논문지
    • /
    • 제6권4호
    • /
    • pp.309-314
    • /
    • 2005
  • 본 논문에서는 생명공학 정보를 포함하는 분산 웹 데이터베이스들로부터 관련성에 기반하여 목표 데이터를 추출하는 기법들을 분석한다. 더불어 이 분석을 기본으로 단백질 데이터의 지식 확장 방법의 설계 및 구현을 제안한다. 웹 데이터베이스를 위한 데이터 추출기는 수동 추출, 반자동 추출, 자동 추출 방법 등의 구현방법이 가능하다. 웹 데이터 추출기는 해당 웹 페이지에서 목표 데이터를 검색 및 추출하기 위하여 식별자를 이용하는 것이 일반적이다. 본 논문은 웹 데이터 추출 기법을 이용한 유기체 단백질 관련 데이터베이스 시스템의 설계와 구현을 기술한다.

  • PDF

전자기록물의 메타데이터 추출 및 비교 검증 기술 연구 (Extracting and Validating Metadata in Electronic Records)

  • 최주호;이재영
    • 한국기록관리학회지
    • /
    • 제12권1호
    • /
    • pp.7-32
    • /
    • 2012
  • 전자기록물의 이관할 때, 전자기록물의 필수 메타데이터의 검증과 실제 문서에 있는 메타데이터를 이용한 검증도 중요하다. 본 연구에서는 전자기록물에 포함된 다양한 형식의 전자파일 중에서 본문파일에서 메타데이터를 추출하고 항목별로 분류한 후 이관되는 메타데이터 항목과 비교 검증을 위한 기술 개발을 연구하였다. 해외에서 개발된 추출 도구와 달리 국내 전자결재 형식을 감안하여 첨부된 본문파일에서 메타데이터를 추출하는 기술을 개발하였으며, 기록물 문서 메타항목에 저장된 원 메타데이터와 추출 메타데이터간 비교 검증을 수행하는 도구를 개발하였다.

공간 데이터 웨어하우스에서 GML 데이터의 효율적인 적재를 위한 데이터 통합 기법 (GML Data Integration Method for Load Processing of Spatial Data Warehouse)

  • 전병윤;이동욱;유병섭;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.27-30
    • /
    • 2006
  • GIS 분야에서 데이터 교환의 표준으로 OGC(Open Geospatial Consortium)에서 GML(Geography Markup Language)이 제안되어 웹 어플리케이션이나 공간 데이터 교환에서 사용이 일반화 되어가고 있다. 또한, 공간 데이터를 효과적으로 수집하여 의사결정을 지원하기 위한 시스템인 공간 데이터 웨어하우스에서도 GML 데이터를 추출하여 소스 데이터로 활용하는 것이 요구되고 있다. 하지만 GML 은 반구조형식(semi-structured)의 데이터 형식을 가진다. 따라서 기존 구조적인 데이터와는 추출하는 방식이 다르므로 GML 의 특징에 맞는 공간 데이터 추출이 수행되어야 한다. 본 논문에서는 공간 데이터 웨어하우스에서 GML 기반의 공간 데이터 소스를 추출할 때, 중복되는 공간 객체를 하나의 표현으로 통합하여 효율적으로 적재하는 기법을 제안한다. 이는 GQuery를 이용하여 GML 데이터를 추출한 후, GML 스키마를 메타데이터에서 관리하는 스키마 정보와 비교하여 공간 데이터 웨어하우스에 통합된 공간 데이터를 제공하는 기법이다. 성능평가에서는 기존의 GML 데이터를 추출하는 기법과 제안기법과의 비교를 통하여 제안 기법의 기존 기법에 비해 평균적으로 약 9.95%의 성능향상을 보였다.

  • PDF

빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출 (Extracting Common Structure of Semistructured data Using mining frequent patterns)

  • 이영언;문봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출 (Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF

원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델 (Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning)

  • 윤수지;남상하;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

세금계산서 상에서의 관심 데이터 추출 (Field Data Extraction on Tax Form Image)

  • 정재영;유돈극
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2001년도 춘계학술대회논문집:21세기 신지식정보의 창출
    • /
    • pp.268-279
    • /
    • 2001
  • 본 논문에서는 세금 계산서 상에서의 관심 영역 및 관심 영역 내의 데이터를 추출하는 알고리즘을 제안한다. 먼저, 입력되는 세금 계산서 영상의 색상 정보를 이용하여 서식을 자동으로 추출한다. 추출된 서식 영상을 가지고 문서의 기울기 및 관심 대상 영역의 위치를 파악한 후, 원 영상에 대하여 관심영역을 추출한다. 관심영역에 대한 히스토그램을 분석하여 바탕 영역으로부터 인식 대상 데이터를 추출한다. 제안한 알고리즘을 다양한 화질의 세금 계산서 영상에 대하여 적용한 결과, 정확하게 관심 영역을 분할해내고 인식 대상 데이터를 추출할 수 있음을 보인다.

  • PDF

계산과학 데이터의 인공지능 분석을 위한 확장성 있는 특징 데이터 추출 자동화 시스템 (A scalable and automated feature data extraction system for AI analysis of computational science data)

  • 안선일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.102-105
    • /
    • 2020
  • AI 분석 과정에서 특징 데이터 추출은 분석 성능에 큰 영향을 미칠 뿐만 아니라 가장 많은 시간을 소요하는 과정 중의 하나이다. 계산과학 데이터는 HPC를 활용하여 생산되므로 데이터가 크고 복잡할 뿐 아니라 데이터의 수도 방대한 경우가 많다. 이 때문에 계산과학 데이터로부터 특징 데이터 추출하는 과정은 복잡성이 크고, 소요 시간도 매우 크다. 본 논문은 먼저 계산과학 데이터로부터 특징 데이터 추출하는 과정에 대한 요구사항과 이슈들을 분석한다. 그리고 확장성을 고려한 계산과학 데이터의 인공지능 분석을 위한 특징 데이터 추출 자동화 시스템을 제안한다.

반구조적 데이터의 효율적인 최소경계 스키마 추출 기법 (An Efficient Technique for Extracting Lower Bound Schema from Semistructured Data)

  • 박경현;김록원;양은주;최은선;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.27-29
    • /
    • 2000
  • 반구조적 데이터는 기존의 스키마와는 달리 고정된 스키마가 없고 주어진 데이터 인스턴스에 대해 하나 이상의 스키마가 존재한다. 따라서 여러 개의 스키마 추출이 가능한데 그중 가장 정확한 스키마를 추출해야 하는 문제(S초듬 Fxtraction)가 발생한다. 이러한 문제를 해결하기 위해 지금까지 여러 가지 스키마 추출 기번들이 제안되었는데 대표적인 것으로 데이터가이드(DataGuide)를 이용하여 최대경계 스키마를 추출하는 방법과 데이터로그(DataLog)를 이용하여 최소경계 스키마를 추출하는 방법이 있다. 이 논문에서는 기존의 데이터로그를 이용하는 방법보다 최소경계 스키마 추출 기법을 제안하고 이전의 스키마 추출 기법들과 비교함으로써 알고리즘의 성능을 살펴본다.

  • PDF