• Title/Summary/Keyword: 데이터 추출

Search Result 6,283, Processing Time 0.034 seconds

Non Duplicated Extract Method of Heterogeneous Data Sources for Efficient Spatial Data Load in Spatial Data Warehouse (공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 데이터 소스의 비중복 추출기법)

  • Lee, Dong-Wook;Baek, Sung-Ha;Kim, Gyoung-Bae;Bae, Hae-Young
    • Journal of Korea Spatial Information System Society
    • /
    • v.11 no.2
    • /
    • pp.143-150
    • /
    • 2009
  • Spatial data warehouses are a system managing manufactured data through ETL step with extracted spatial data from spatial DBMS or various data sources. In load period, duplicated spatial data in the same subject are not useful in extracted spatial data dislike aspatial data and waste the storage space by the feature of spatial data. Also, in case of extracting source data on heterogeneous system, as those have different spatial type and schema, the spatial extract method is required for them. Processing a step matching address about extracted spatial data using a standard Geocoding DB, the exiting methods load formal data set. However, the methods cause the comparison operation of extracted data with Geocoding DB, and according to integrate spatial data by subject it has problems which do not consider duplicated data among heterogeneous spatial DBMS. This paper proposes efficient extracting method to integrate update query extracted from heterogeneous source systems in data warehouse constructer. The method eliminates unnecessary extracting operation cost to choose related update queries like insertion or deletion on queries generated from loading to current point. Also, we eliminate and integrate extracted spatial data using update query in source spatial DBMS. The proposed method can reduce wasting storage space caused by duplicate storage and support rapidly analyzing spatial data by loading integrated data per loading point.

  • PDF

Design and application of effective data extraction technique from Web databases (웹 기반 데이터베이스로부터의 유용한 데이터 추출 기법의 설계 및 응용)

  • Hwang, Doo-Sung
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.6 no.4
    • /
    • pp.309-314
    • /
    • 2005
  • This paper analyzes techniques that extract objective information from distributed web databases for bioinformatics based on relationship among information. Moreover, we discuss the design and implementation of a method for knowledge enhancement in respect of protein information. Web data extractor can be constructed by using a manual, semi-automatic, or automatic way. Data extractor generally makes use of identifiers in order to search and extract targeting information from a specified web page. This paper presents a design and implementation for the protein databases of an organism by utilizing web data extraction techniques.

  • PDF

Extracting and Validating Metadata in Electronic Records (전자기록물의 메타데이터 추출 및 비교 검증 기술 연구)

  • Choi, Joo Ho;Lee, Jae Young
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.12 no.1
    • /
    • pp.7-32
    • /
    • 2012
  • When migrate electronic records, the validation of the required metadata in electronic records and verified with the metadata in the document are also important. This paper presents a method and implements a tool to extract data from files in various formats and use them to validate metadata associated with the files in electronic records. Compared to other metadata extraction tools, especially developed in foreign countries, the standard form of documents used in Korean government is taken into account and metadata is extracted from the content of files. The tool compares the extracted data to encapsulated metadata for validation.

GML Data Integration Method for Load Processing of Spatial Data Warehouse (공간 데이터 웨어하우스에서 GML 데이터의 효율적인 적재를 위한 데이터 통합 기법)

  • Jeon Byung-Yun;Lee Dong-Wook;You Byeong-Seob;Bae Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.27-30
    • /
    • 2006
  • GIS 분야에서 데이터 교환의 표준으로 OGC(Open Geospatial Consortium)에서 GML(Geography Markup Language)이 제안되어 웹 어플리케이션이나 공간 데이터 교환에서 사용이 일반화 되어가고 있다. 또한, 공간 데이터를 효과적으로 수집하여 의사결정을 지원하기 위한 시스템인 공간 데이터 웨어하우스에서도 GML 데이터를 추출하여 소스 데이터로 활용하는 것이 요구되고 있다. 하지만 GML 은 반구조형식(semi-structured)의 데이터 형식을 가진다. 따라서 기존 구조적인 데이터와는 추출하는 방식이 다르므로 GML 의 특징에 맞는 공간 데이터 추출이 수행되어야 한다. 본 논문에서는 공간 데이터 웨어하우스에서 GML 기반의 공간 데이터 소스를 추출할 때, 중복되는 공간 객체를 하나의 표현으로 통합하여 효율적으로 적재하는 기법을 제안한다. 이는 GQuery를 이용하여 GML 데이터를 추출한 후, GML 스키마를 메타데이터에서 관리하는 스키마 정보와 비교하여 공간 데이터 웨어하우스에 통합된 공간 데이터를 제공하는 기법이다. 성능평가에서는 기존의 GML 데이터를 추출하는 기법과 제안기법과의 비교를 통하여 제안 기법의 기존 기법에 비해 평균적으로 약 9.95%의 성능향상을 보였다.

  • PDF

Extracting Common Structure of Semistructured data Using mining frequent patterns (빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출)

  • 이영언;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data (계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출)

  • 엄재홍;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF

Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning (원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델)

  • Yoon, Sooji;Nam, Sangha;Kim, Eun-kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

Field Data Extraction on Tax Form Image (세금계산서 상에서의 관심 데이터 추출)

  • 정재영;유돈극
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2001.05a
    • /
    • pp.268-279
    • /
    • 2001
  • 본 논문에서는 세금 계산서 상에서의 관심 영역 및 관심 영역 내의 데이터를 추출하는 알고리즘을 제안한다. 먼저, 입력되는 세금 계산서 영상의 색상 정보를 이용하여 서식을 자동으로 추출한다. 추출된 서식 영상을 가지고 문서의 기울기 및 관심 대상 영역의 위치를 파악한 후, 원 영상에 대하여 관심영역을 추출한다. 관심영역에 대한 히스토그램을 분석하여 바탕 영역으로부터 인식 대상 데이터를 추출한다. 제안한 알고리즘을 다양한 화질의 세금 계산서 영상에 대하여 적용한 결과, 정확하게 관심 영역을 분할해내고 인식 대상 데이터를 추출할 수 있음을 보인다.

  • PDF

A scalable and automated feature data extraction system for AI analysis of computational science data (계산과학 데이터의 인공지능 분석을 위한 확장성 있는 특징 데이터 추출 자동화 시스템)

  • Ahn, Sunil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.102-105
    • /
    • 2020
  • AI 분석 과정에서 특징 데이터 추출은 분석 성능에 큰 영향을 미칠 뿐만 아니라 가장 많은 시간을 소요하는 과정 중의 하나이다. 계산과학 데이터는 HPC를 활용하여 생산되므로 데이터가 크고 복잡할 뿐 아니라 데이터의 수도 방대한 경우가 많다. 이 때문에 계산과학 데이터로부터 특징 데이터 추출하는 과정은 복잡성이 크고, 소요 시간도 매우 크다. 본 논문은 먼저 계산과학 데이터로부터 특징 데이터 추출하는 과정에 대한 요구사항과 이슈들을 분석한다. 그리고 확장성을 고려한 계산과학 데이터의 인공지능 분석을 위한 특징 데이터 추출 자동화 시스템을 제안한다.

An Efficient Technique for Extracting Lower Bound Schema from Semistructured Data (반구조적 데이터의 효율적인 최소경계 스키마 추출 기법)

  • 박경현;김록원;양은주;최은선;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.27-29
    • /
    • 2000
  • 반구조적 데이터는 기존의 스키마와는 달리 고정된 스키마가 없고 주어진 데이터 인스턴스에 대해 하나 이상의 스키마가 존재한다. 따라서 여러 개의 스키마 추출이 가능한데 그중 가장 정확한 스키마를 추출해야 하는 문제(S초듬 Fxtraction)가 발생한다. 이러한 문제를 해결하기 위해 지금까지 여러 가지 스키마 추출 기번들이 제안되었는데 대표적인 것으로 데이터가이드(DataGuide)를 이용하여 최대경계 스키마를 추출하는 방법과 데이터로그(DataLog)를 이용하여 최소경계 스키마를 추출하는 방법이 있다. 이 논문에서는 기존의 데이터로그를 이용하는 방법보다 최소경계 스키마 추출 기법을 제안하고 이전의 스키마 추출 기법들과 비교함으로써 알고리즘의 성능을 살펴본다.

  • PDF