• Title/Summary/Keyword: 중복 데이터

Search Result 1,024, Processing Time 0.031 seconds

A Design of SQL-based Query Language for Metadata Registry (메타데이터 레지스트리를 위한 SQL 기반 질의 언어 설계)

  • 신동길;정동원;이정욱;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.130-132
    • /
    • 2003
  • 현재 세계 각국에서 많은 메타데이터 레지스트리들이 구축되어 왔다 그러나 메타데이터 레지스트리가 국제 표준(ISO/IEC 11179)임에도 불구하고 일관성 있는 표준 접근 인터페이스를 제공하지 않음으로써 각각 다른 연산으로 구현되었다. 이는 각각의 메타데이터 레지스트리 구축시 동일한 연산 패턴의 중복된 구현으로 인한 불필요한 비용을 야기한다. 국제 표준인 메타데이터 레지스트리에 대한 접근시 시스템 마다 동일한 연산 패턴을 지니게 된다. 이 논문에서는 이와 같이 메타데이터 레지스트리에서 공통적으로 사용되는 연산 패턴을 분석하고 정의한다. 또한 분석된 연산 패턴을 이용하여 표준 SQL을 확장한 SQL/MDR을 정의하고 설계한다. 설계된 SOL/MDR은 메타데이터 레지스트리 관리 시스템 개발에 표준 접근 방법을 제공한다. 또한 이는 개별적인 개발로 인한 추가적인 노력을 감소시키고 메타데이터 레지스트리에 대한 보다 일관성 있는 접근을 가능하게 한다.

  • PDF

Min-Max Hash for Similarity Measurement based on Multiset (Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정)

  • Yoon, Jin-Uk;Kim, Byoungwook
    • Annual Conference of KIPS
    • /
    • 2019.05a
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Efficient Complex Event Processing Scheme Considering Similar and Duplication Operations (유사 연산과 중복 연산을 고려한 효율적인 복합 이벤트 처리 기법)

  • Kim, Daeyun;Ko, Geonsik;Kim, Byounghoon;Noh, Yeonwoo;Lim, Jongtae;Bok, Kyoungsoo;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.3
    • /
    • pp.370-381
    • /
    • 2017
  • Recently, a complex event processing system has been introduced to quickly and efficiently process real-time events in various applications. Since the existing complex event processing schemes do not consider the similarity and duplication of operators, they perform a lot of computations and consume memory. To solve such problems, this paper proposes an efficient complex event processing scheme considering similar operators and duplication operations. When the same primitive events have similar operations, the proposed scheme combines them into one virtual operator. For duplicated operations, the proposed scheme processes only one of them first, and then processes the others using the results of the already processed operation when the same operation is subsequently performed. It is shown through performance comparison that the proposed scheme outperforms the existing scheme in terms of the whole operation throughput.

The Design and Implementation of Update Protocol for Spatial Data based on the Middleware : OLE DB (미들웨어 : OLE DB를 기반으로 한 공간 데이터 변경 프로토콜의 설계 및 구현)

  • 박정하;김동현;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.45-47
    • /
    • 2000
  • 지리정보시스템 클라이언트는 Open API를 이용한 개방형((Open)구조를 지향하고 있으며 OpenGIS는 다양한 데이터 소스간의 상호운용을 지우 하는 개방형 지리정보시스템의 표준으로 자리를 잡아가고 있다. 따라서 기존의 패쇄환경(Closed Environment)에서 행해졌던 공간 데이터 동시 수정의 연구는 OLE DB와 같은 개방환경(Open Environment)에서 연구될 필요가 있다. 기존의 기법을 OLE DB에 적용할 때 문제점으로 제기되는 것은 첫째, 공간데이터 수정을 위한 변경 제어가 서버측에 위치함으로써 서버에 따라 재작성 되어야 하는 문제가 있고, 둘째, 서버의 데이터를 중복 저장하고 있는 클라이언트 데이터에 대한 일관성 유지를 위해 클라이언트의 변경 내용은 다른 클라이언트에게 통보되어야 하지만 OLE DB의 통보 메커니즘은 Rowset을 공유하는 동일 클라이언트 내에서의 통보만 가능한 구조이다. 본 논문은 공간데이터베이스 서버에 의존적인 서버부분의 기능을 미들웨어에서 구현함으로써 서버 모듈의 재작성 문제를 해결하고 서로 다른 클라이언트간의 변경 전파 프로토콜을 제시하여 서버와 독립적으로 운용할 수 있는 공간데이터 변경을 위한 OLE DB서비스 제공자 프로토콜을 설계하고 구현한 결과를 보인다.

  • PDF

Topological Consistency in Map Generalization (지도 일반화를 위한 위상적 일관성 유지)

  • 최신영;이성희;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.158-160
    • /
    • 1998
  • 지도 제작에 있어서, 기존의 구축된 대축척의 원천 데이터로부터 소축척의 목적 데이터를 추출해 냄으로 데이터 구축을 중복되지 않고 효율적으로 할 수 있게 하는 것을 지도 일반화라고 한다. 초기의 선을 단순화하는 알고리즘 개발과 향상에 대한 연구로부터, 최근에는 자동화를 위한 지식 기반 일반화 및 데이터 품질에 대한 많은 관심과 연구가 진행되고 있다. 최근에 지리 정보 시스템의 발전으로 다양한 공간 분석이 필요하고, 그 성능 향상을 위하여 위상 정보를 구축하게 된다. 그러므로, 본 논문에서는 위상 정보를 가진 원천 데이터 베이스에서, 일반화 연산자가 적용됨으로 발생하게 되는 위상 데이터의 손실과 불일치를 해결하기 위하여 일반화 연산자들이 위상 정보에 미치는 영향과 이를 해결하기 위한 규칙들을 제시한다. 그리고, 지도 일반화 과정에서 위상 정보의 일관성을 유지한 목적 데이터 베이스를 구축하는 시스템을 구현하는 것이 본 논문의 목적이다.

Design of E-Commerce Service on The Web Based on Data Mining (데이터마이닝을 기반으로 한 웹 전자상거래 서비스 설계)

  • Chen, Lin;Kim, Chul-Won
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.15 no.4
    • /
    • pp.703-708
    • /
    • 2020
  • The momentum of e-commerce is growing stronger and now, the competition between e-commerce is becoming more and more fierce. In the competition of various e-commerce companies, how to effectively analyze and rationally use these data has become a key point. This paper will use data mining technology to filter out redundant data from large Web databases, extract data that is useful to us, and then analyze them from different perspectives to apply this data reasonably and effectively to our e-commerce website.

Standardization of XML based Meta-data for Industrial Speech Databases (산업용 음성 DB 메타데이터 표준화)

  • Joo, Young-Hee;Hong, Ki-Hyung
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.211-214
    • /
    • 2005
  • 본고에서는 산업용 음성 DB를 위한 XML 기반 메타데이터의 표준화에 대한 현재 상황과 표준화 활동에 대하여 소개한다. 산업용 음성 DB는 구축에 많은 시간과 비용을 요구하며, 양질의 음성 처리 시스템 (인식/합성/인증)의 개발을 위해서는 가능한 많은 양의 음성 데이터가 필요하다. 산업용 음성 DB 메타데이터 표준화는 서로 다른 기관에서 구축한 음성 DB의 공유와 재사용을 원활히 하기 위하여, 2004년 9월부터 요구사항 분석을 시작하여, 2005년 3월 초안이 완성되었다. 본 표준안은 음성 DB 메타데이터의 구조를 XML 기반으로 정의한 것이며, 음성 파일 이름, 화자 식별자, 음소 기호와 같은 구조 외의 표준화 대상에 대해서는 다루지 않는다. 이미 ETRI와 SiTEC [5]에서 XML 기반의 메타데이터 구조와 내용 표준안을 제안한 바 있으나. [5]에서 제안한 구조는 평면 구조를 취하고 있어 내용의 중복성등의 단점이 있어, 이를 보완하여 음성 DB 데이터 모델을 객체지향 방식으로 설계하였다.

  • PDF

Searching Spatial Data of Wireless Devices using GIS agents (GIS 에이전트를 이용한 무선 단말기의 공간데이터 검색)

  • 이재호;임덕성;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.199-201
    • /
    • 2001
  • 무선 단말기는 저장공간, 연산능력, 통신등에 대한 계약을 가지고 있다. 무선 단말기의 공간데이터 검색의 경우 사용자의 요구를 효과적으로 처리하기 위해서 질의 생성, 데이터 관리, 색인관리등과 같은 연산들을 필요로 한다. 그러나 추가되는 영역과 저장된 영역의 데이터 사이에 중복객체가 존재하는 문제가 있고 추가되는 영역에 대해 색인을 구성하기 위해 공간 데이터의 정렬과 같은 고비용의 연산이 필요하다. 특히 무선 단말기에서 색인관리는 서버로부터 공간 데이터를 전송받을 때 마다 색인을 재 구성하기 위해 Bulk-Insertion 기법의 사용이 효율적이다. 따라서 이 논문에서는 낮은 컴퓨팅 능력을 가지는 무선 단말기에서 고비용의 연산 처리를 줄이기 위해 데이터 정렬, 색인 구성 등의 연산을 처리하는 에이전트를 제시한다.

  • PDF

A Code Mapping Technique Considering With Data Copying Flow On Coarse-Grained Reconfigurable Array Architectures (재구성형 어레이 아키텍처에서 데이터 복사 흐름을 고려한 코드 매핑 기법)

  • Cho, Doosan
    • Annual Conference of KIPS
    • /
    • 2010.11a
    • /
    • pp.1632-1634
    • /
    • 2010
  • 고성능 재구성형 어레이 아키텍처는 애플리케이션에 내재된 병렬성을 충분히 활용하도록 풍부한 하드웨어 리소스로 구성되어 있다. 이러한 하드웨어 리소스는 소프트웨어 파이프라이닝 기반 코드할당 기법을 통하여 사용된다. 이러한 코드할당 기법은 기존의 소프트웨어 파이프라이닝 기법에 FPGA 에서의 라우팅 & 위치선정기법이 연결된 형식으로 구성된다. 이러한 기존의 연구들은 데이터 흐름 (data flow)을 단순한 형태로 가정하여 개발되었다. 따라서 루프 코드 펼침 (loop unrolling)에 따라서 발생되는 데이터 복사에 의한 흐름 (copy flow)은 코드 매핑할 때 고려하지 않기 때문에 소프트웨어 파이프라이닝 적용시 네트웍 리소스의 중복사용으로 인한 데이터 충돌문제(data congestion)로 Minimum Initiation Interval (MII)증가에 따르는 성능 저하가 발생할 수 있다. 본 연구에서는 다양한 데이터 복사 흐름까지 고려하도록 데이터 의존도 그래프 (Data Dependence Graph, DDG)를 확장하여 스케쥴링 단계에서 데이터 충돌 지연에 의한 MII 증가를 방지하여 최적의 시스템 성능을 얻도록 코드 할당 기법을 개발하였다.

Design and Implementation of XMDR based on OGSA-DAI System for Data Integration retrieval (데이터 통합검색을 위한 XMDR기반의 OGSA-DAI 시스템 설계 및 구현)

  • Ma, Jin;Moon, Seok-Jae;Jung, Gye-Dong;Choi, Young-Keun
    • Annual Conference of KIPS
    • /
    • 2009.11a
    • /
    • pp.173-174
    • /
    • 2009
  • 기업이 관리하고 있는 중요한 정보자원들은 대부분이 여러 레거시 시스템에 분산 저장되어 있다. 그리고 저장되어 있는 정보 자원들 또한 서로 호환되지 않는 다양한 형태로 존재하고 있다. 이러한 문제를 해결하기 위해 분산된 데이터의 통합과 지식 공유를 위한 시스템이 필요하다. 데이터 통합의 목적은 기업의 조직과 주요 업무, 핵심 어플리케이션으로부터 발생하는 데이터 소스들의 표준 규칙과 메타 데이터를 이용하여 중복성을 제거하고, 오직 단일 데이터를 제공하는데 있다. 본 논문에서는 XMDR 기반의 OGSA-DAI를 이용하여 통합 검색 시스템을 설계 및 구현하였고, 분산되어 있는 레거시 시스템간의 데이터 통합검색이 가능한 시스템을 제안한다. 제안한 시스템은 분산된 레거시 데이터베이스간의 협업 환경 구성에 적합하며, 실시간 기업환경에서 빠른 정보 전달과 업무 지원 환경에 적절한 시스템이다.