• Title/Summary/Keyword: 데이터 처리량

Search Result 2,565, Processing Time 0.037 seconds

A Large-scale RDF Storage and Retrieval System for Linked Data (링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템)

  • Lee, Yong-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.523-524
    • /
    • 2016
  • 본 논문에서는 링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템을 제안한다. 현재 링크드 데이터에 대한 핵심 이슈는 링크드 데이터의 효율적인 저장과 검색, 그리고 활용 애플리케이션 개발이다. 제안 시스템은 저장 관리자, 인덱스 구조, 그리고 질의 처리기로 구성되어 있다. 저장 관리자는 대용량 RDF 데이터를 처리하기 위해 그래프 데이터베이스에 데이터를 분산 저장하며, 인덱스 구조는 다차원 히스토그램, 보조 인덱싱, 그리고 그래프 인덱싱 기법이 구현된다. 질의 처리기는 SPARQL 또는 NoSQL 질의를 사용하여 질의 최적화 및 랭킹기법이 적용된 RDF 트리플 검색을 수행한다.

A Design and Implementation of Table Structure and a System Based on Hive for Processing Large RDF Data (대용량 RDF 데이터 처리를 위한 Hive 기반 테이블 구조 및 시스템의 설계 및 구현)

  • Lee, Dae-Hee;Son, Young-Seok;Ha, Young-Guk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.255-257
    • /
    • 2015
  • 시맨틱 웹 기술 분야에서는 데이터를 온톨로지 형태로 표현함으로써 데이터의 의미를 인간뿐만 아니라 컴퓨터와 같은 기계도 이해할 수 있도록 한다. 이러한 온톨로지 데이터의 크기가 지속적으로 증가함에 따라 대용량 온톨로지 데이터 처리에 대한 필요성이 증가하고 있다. 이에 따라 본 논문에서는 대용량 온톨로지 데이터를 저장하고 질의를 할 수 있는 Hive 기반의 시스템을 제안한다. 또한 Hive에서 제공하는 파티셔닝을 이용하여 온톨로지 데이터에 대한 쿼리 반응 속도의 성능 향상을 위한 테이블 설계를 제안한다. 본 논문에서 제안하는 시스템의 성능 평가를 위하여 쿼리에 대한 반응 속도 측정을 수행한다.

Design and Implementation of Multi-Level Spatial DBMS with Snapshot (스냅샷 데이터를 갖는 다중레벨 공간 DBMS 설계 및 구현)

  • Cheon Jong-Hyeon;Eo Sang-Hun;Kim Ho-Seok;Bae Hae-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.217-219
    • /
    • 2005
  • 최근 들어 무선 인터넷 및 모바일 기술이 급속한 발달을 이루면서 이동 객체의 위치에 기반 한 많은 서비스들이 개발되고 있다. 이 서비스에 사용되는 않은 어플리케이션들은 비교적 용량이 큰 공간 정보를 사용하여 최근에는 기존 디스크 기반 데이터베이스 관리 시스템이 제공할 수 있는 처리 속도보다 더욱 빠른 트랜잭션 처리를 요구하고 있다. 따라서 공간 데이터와 같은 대용량 데이터의 효율적인 처리와 폭주 하는 여러 사용자들에게 빠른 응답시간을 제공하여 주는 공간 DBMS가 요구되고 있다. 기존 디스크 기반의 공간 DBMS는 공간데이터와 같은 대용량의 데이터 관리가 가능하지만, 빠른 응답속도를 요구하는 여러 어플리케이션을 지원하기에는 무리가 있다. 반면에 메인 메모리 기반의 공간 DBMS는 불필요한 디스크 I/O를 없앰으로써 더욱 빠른 트랜잭션 처리를 지원하지만, 메인 메모리의 저장 한계로 대용량 처리에는 한계가 있다. 이러한 이유로 디스크 공간 DBMS의 장점과 메인 메모리 공간 DBMS의 장점으로 이루어진 다중레벨 공간 DBMS를 제안한다. 다중레벨 공간 DBMS는 디스크 기반의 공간 DBMS인 GMS시스템에 메인 메모리 데이터베이스와 그와 관련된 여러 컴포넌트들을 추가하여 개발 하였다. 제안된 시스템은 디스크 데이터베이스 기반의 대용량 데이터의 효율적인 관리와 메모리 데이터베이스 기반의 빠른 트랜잭션 처리를 보장한다.

  • PDF

A study of MapReduce Algorithm for Bigdata (빅데이터 처리를 위한 맵리듀스 연구)

  • Kim, Man-Yun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.341-342
    • /
    • 2014
  • 지난 10년간 데이터의 폭발적인 증가로 우리는 빅데이터 시대를 맞이하게 되었다. 특히, 최근 몇 년 사이 소셜 네트워크의 발전으로 인해 발생하는 데이터의 양이 증가하면서, 이를 처리하기 위한 시스템으로 하둡이 등장하였다. 이전에는 저장 및 처리할 수 없었던 대용량 데이터를 오픈소스인 하둡의 등장으로 누구나가 대용량 데이터를 처리할 수 있는 시스템을 운영할 수 있게 된 것이다. 대규모 처리 분석을 위한 소프트웨어 프레임워크인 하둡은 클라우드 컴퓨팅의 대표적인 기술로 널리 사용되고 있다. 하둡은 크게 데이터의 저장을 담당하는 HDFS(Hadoop Distribute File System)와 데이터를 처리하는 맵리듀스로 나뉜다. 본 논문에서는 기존의 MapReduce와 차세대 맵리듀스로 불리는 YARN을 비교 분석하고 맵리듀스의 용도와 효율적인 활용방안을 제시한다.

  • PDF

Spark-Based Big Data Preprocessing for Text Summarization (텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리)

  • Ji, Dong-Jun;Jun, Hee-Gook;Im, Dong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.383-385
    • /
    • 2022
  • 텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

In-memory based Incremental Processing Method for Massive Streaming Data (대용량 스트리밍 데이터에 대한 분산 인메모리 기반의 점진적 처리 기법)

  • Yook, Misun;Kim, Byounghoon;Han, Jieun;Noh, Yeonwoo;Lim, Jongtae;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.73-74
    • /
    • 2015
  • 본 논문에서는 스트리밍 데이터에 대한 점진적 연산을 지원하는 실시간 분산 인메모리 데이터 처리 기법을 제안한다. 제안하는 데이터 처리 기법은 기존에 처리된 데이터를 인메모리에 유지하고 새로운 스트리밍 데이터가 입력되었을 때 기존에 처리된 데이터를 재사용한다. 성능평가를 통해 제안하는 기법이 하둡에 비해 대용량 스트리밍 데이터를 빠르게 처리할 수 있음을 보인다.

  • PDF

An Implementation of High Performance Transmission System for Large-scale Experimental Data (대용량 실험데이터 고속전송 시스템 구현)

  • Jin, Duseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.506-507
    • /
    • 2021
  • 대용량 실험데이터를 생성하는 가속기, 전자현미경, 전파망원경 등과 같은 첨단 실험장비들의 기술적 발전으로, 생성되는 실험데이터의 규모가 폭발적으로 증가하고 있다. 이에 따라, 데이터 분석연구에 대용량 데이터의 저장이 가능하고, 데이터 분석에 필요한 고성능 계산 서버를 갖춘 전문 데이터센터의 활용이 증가하고 있다. 본 논문에서는 이러한 전문 데이터센터를 연계한 데이터 분석 연구환경구축에서 가장 기본이 되는 데이터수집을 위한 고성능 데이터 전송 시스템을 구현하고, 이를 적용한 사례를 통해 제안하는 시스템의 효율성을 검증한다.

MAHA-FS : A Distributed File System for High Performance Metadata Processing and Random IO (MAHA-FS : 고성능 메타데이터 처리 및 랜덤 입출력을 위한 분산 파일 시스템)

  • Kim, Young Chang;Kim, Dong Oh;Kim, Hong Yeon;Kim, Young Kyun;Choi, Wan
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.2
    • /
    • pp.91-96
    • /
    • 2013
  • The application field of supercomputing systems are changing to support into the field for both a large-volume data processing and high-performance computing at the same time such as bio-applications. These applications require high-performance distributed file system for storage management and efficient high-speed processing of large amounts of data that occurs. In this paper, we introduce MAHA-FS for supercomputing systems for processing large amounts of data and high-performance computing, providing excellent metadata operation performance and IO performance. It is shown through performance analysis that MAHA-FS provides excellent performance in terms of the metadata processing and random IO processing.

Volume Data Compression Using Daubechies Wavelet Transforms (Daubechies 웨이블릿 변환을 이용한 볼륨 데이터 압축)

  • Hur, Young-Ju;Park, Sang-Hun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.1411-1414
    • /
    • 2005
  • 볼륨 데이터는 시뮬레이션 통해 생성되거나 고성능 측정 장비를 이용해 측정된 값으로 구성되는 고차원 데이터의 한 형태로서 다양한 자연과학과 공학분야에서 폭넓게 활용되고 있다. 최근에는 각 분야에서 생성되는 계산 데이터의 용량이 점점 더 증가하고 있기 때문에 이런 대용량의 볼륨 데이터를 효과적으로 처리하기 위한 기법들에 관한 연구가 수행되고 있으며, 특히 대용량 볼륨 데이터 압축 기법에 대한 필요성이 증가하고 있다. 본 논문에서는 Daubechies 웨이블릿 변환과 zerobit 인코딩 스킴을 응용한 새로운 볼륨 데이터 압축 기법을 제안한다. 이 방법은 기존의 압축 방법에 비해 복원 데이터의 손실이 낮기 때문에 정밀한 영상을 요구하는 대용량 데이터 압축에 유용하게 사용될 수 있다.

  • PDF

A Study on the Improvement of Large-Volume Scalable Spatial Data for VWorld Desktop (브이월드 데스크톱을 위한 대용량 공간정보 데이터 지원 방안 연구)

  • Kang, Ji-Hun;Kim, Hyeon-Deok;Kim, Jung-Ok
    • Journal of Cadastre & Land InformatiX
    • /
    • v.45 no.1
    • /
    • pp.169-179
    • /
    • 2015
  • Recently, as the amount of data increases rapidly, the development of IT technology entered the 'Big Data' era, dealing with large-volume of data at once. In the spatial field, a spatial data service technology is required to use that various and big amount of data. In this study, firstly, we explained the technology of typical spatial information data services abroad, and then we have developed large KML data processing techniques those can be applied as KML format to VWorld desktop. The test was conducted using a large KML data in order to verify the development KML partitioned methods and tools. As a result, the index file and the divided files are produced and it was visible in VWorld desktop.