• Title/Summary/Keyword: 대용량 데이터 처리 기술

Search Result 502, Processing Time 0.033 seconds

A Design and Implementation of Table Structure and a System Based on Hive for Processing Large RDF Data (대용량 RDF 데이터 처리를 위한 Hive 기반 테이블 구조 및 시스템의 설계 및 구현)

  • Lee, Dae-Hee;Son, Young-Seok;Ha, Young-Guk
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.255-257
    • /
    • 2015
  • 시맨틱 웹 기술 분야에서는 데이터를 온톨로지 형태로 표현함으로써 데이터의 의미를 인간뿐만 아니라 컴퓨터와 같은 기계도 이해할 수 있도록 한다. 이러한 온톨로지 데이터의 크기가 지속적으로 증가함에 따라 대용량 온톨로지 데이터 처리에 대한 필요성이 증가하고 있다. 이에 따라 본 논문에서는 대용량 온톨로지 데이터를 저장하고 질의를 할 수 있는 Hive 기반의 시스템을 제안한다. 또한 Hive에서 제공하는 파티셔닝을 이용하여 온톨로지 데이터에 대한 쿼리 반응 속도의 성능 향상을 위한 테이블 설계를 제안한다. 본 논문에서 제안하는 시스템의 성능 평가를 위하여 쿼리에 대한 반응 속도 측정을 수행한다.

Design and Implementation of Multi-Level Spatial DBMS with Snapshot (스냅샷 데이터를 갖는 다중레벨 공간 DBMS 설계 및 구현)

  • Cheon Jong-Hyeon;Eo Sang-Hun;Kim Ho-Seok;Bae Hae-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.217-219
    • /
    • 2005
  • 최근 들어 무선 인터넷 및 모바일 기술이 급속한 발달을 이루면서 이동 객체의 위치에 기반 한 많은 서비스들이 개발되고 있다. 이 서비스에 사용되는 않은 어플리케이션들은 비교적 용량이 큰 공간 정보를 사용하여 최근에는 기존 디스크 기반 데이터베이스 관리 시스템이 제공할 수 있는 처리 속도보다 더욱 빠른 트랜잭션 처리를 요구하고 있다. 따라서 공간 데이터와 같은 대용량 데이터의 효율적인 처리와 폭주 하는 여러 사용자들에게 빠른 응답시간을 제공하여 주는 공간 DBMS가 요구되고 있다. 기존 디스크 기반의 공간 DBMS는 공간데이터와 같은 대용량의 데이터 관리가 가능하지만, 빠른 응답속도를 요구하는 여러 어플리케이션을 지원하기에는 무리가 있다. 반면에 메인 메모리 기반의 공간 DBMS는 불필요한 디스크 I/O를 없앰으로써 더욱 빠른 트랜잭션 처리를 지원하지만, 메인 메모리의 저장 한계로 대용량 처리에는 한계가 있다. 이러한 이유로 디스크 공간 DBMS의 장점과 메인 메모리 공간 DBMS의 장점으로 이루어진 다중레벨 공간 DBMS를 제안한다. 다중레벨 공간 DBMS는 디스크 기반의 공간 DBMS인 GMS시스템에 메인 메모리 데이터베이스와 그와 관련된 여러 컴포넌트들을 추가하여 개발 하였다. 제안된 시스템은 디스크 데이터베이스 기반의 대용량 데이터의 효율적인 관리와 메모리 데이터베이스 기반의 빠른 트랜잭션 처리를 보장한다.

  • PDF

Data Processing Architecture for Cloud and Big Data Services in Terms of Cost Saving (비용절감 측면에서 클라우드, 빅데이터 서비스를 위한 대용량 데이터 처리 아키텍쳐)

  • Lee, Byoung-Yup;Park, Jae-Yeol;Yoo, Jae-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.5
    • /
    • pp.570-581
    • /
    • 2015
  • In recent years, many institutions predict that cloud services and big data will be popular IT trends in the near future. A number of leading IT vendors are focusing on practical solutions and services for cloud and big data. In addition, cloud has the advantage of unrestricted in selecting resources for business model based on a variety of internet-based technologies which is the reason that provisioning and virtualization technologies for active resource expansion has been attracting attention as a leading technology above all the other technologies. Big data took data prediction model to another level by providing the base for the analysis of unstructured data that could not have been analyzed in the past. Since what cloud services and big data have in common is the services and analysis based on mass amount of data, efficient operation and designing of mass data has become a critical issue from the early stage of development. Thus, in this paper, I would like to establish data processing architecture based on technological requirements of mass data for cloud and big data services. Particularly, I would like to introduce requirements that must be met in order for distributed file system to engage in cloud computing, and efficient compression technology requirements of mass data for big data and cloud computing in terms of cost-saving, as well as technological requirements of open-source-based system such as Hadoop eco system distributed file system and memory database that are available in cloud computing.

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • Kim, Hui-Jae;Ju, Gyeong-No;Yun, Chan-Hyeon
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

Design and Implementation of Big Data Platform for Analyzing Huge Cargo DTG Data (대용량 화물 DTG 데이터 분석을 위한 빅데이터 플랫폼 설계 및 구현)

  • Kim, Bum-Soo;Kim, Tae-Hak;Kim, Jin-Wook
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.287-288
    • /
    • 2019
  • 본 논문에서는 대용량 화물 DTG 데이터 분석을 위한 빅데이터 플랫폼을 설계 및 구현한다. DTG(digital tacho graph)는 차량운행기록을 실시간으로 저장하는 장치로서, 차량의 GPS, 속도, RPM, 제동유무, 이동거리 등 차량운행 관련 데이터가 1초 단위로 기록된다. 차량 운행 패턴 및 분석을 하기 위해서는 DTG 데이터의 빠른 처리가 필수적이며, 특히 대용량 DTG 데이터를 가공 및 변환하기 위해서는 별도의 플랫폼이 필요하다. 본 논문에서는 오픈소스 기반의 빅데이터 프레임워크인 스파크(Spark)를 이용하여 대용량 화물 DTG 데이터의 전처리 플랫폼을 구현하였다. 실제 대용량 화물 DTG 데이터를 대상으로 데이터를 변환 및 지도상에 표현해 보인다.

  • PDF

Monitoring Tools for Efficient Overload Measurements in Apache Kafka (Apache Kafka에서 효율적인 과부하 측정을 위한 모니터링 도구)

  • Bang, Jiwon;Son, Siwoon;Moon, Yang-Sae;Choi, Mi-Jung
    • Annual Conference of KIPS
    • /
    • 2017.11a
    • /
    • pp.52-54
    • /
    • 2017
  • 실시간으로 빠르게 발생하는 대용량 데이터를 다루기 위해 Apache Storm, Apache Spark 등 실시간 데이터 스트림 처리 기술에 대한 연구가 활발하다. 대부분의 실시간 처리 기술들은 단독으로 사용하기에 어려움이 있으며, 데이터 스트림의 입출력을 위해 메시징 시스템과 함께 사용하는 것이 일반적이다. Apache Kafka는 대표적인 분산 메시징 시스템으로써, 실시간으로 발생하는 대용량의 로그 데이터를 전달하는데 특화된 시스템이다. 현재 Kafka를 위한 다양한 성능 모니터링 도구들이 존재한다. 이러한 모니터링 도구들은 Kafka에서 처리되는 데이터의 양 이외에도 유입 데이터의 크기, 수집 속도, 처리 속도 등 다양한 데이터들을 관찰할 수 있다. 본 논문은 Kafka에서 제공하는 도구와 오픈 소스로 제공되는 여러 개의 도구들을 비교하여, 향후 Kafka의 로드 쉐딩에 대한 연구에 적용할 수 있는 최적의 모니터링 도구를 선별하고자 한다.

Optimization and Performance Analysis of Cloud Computing Platform for Distributed Processing of Big Data (대용량 데이터의 분산 처리를 위한 클라우드 컴퓨팅 환경 최적화 및 성능평가)

  • Hong, Seung-Tae;Shin, Young-Sung;Chang, Jae-Woo
    • Spatial Information Research
    • /
    • v.19 no.4
    • /
    • pp.55-71
    • /
    • 2011
  • Recently, interest in cloud computing which provides IT resources as service form in IT field is increasing. As a result, much research has been done on the distributed data processing that store and manage a large amount of data in many servers. Meanwhile, in order to effectively utilize the spatial data which is rapidly increasing day by day with the growth of GIS technology, distributed processing of spatial data using cloud computing is essential. Therefore, in this paper, we review the representative distributed data processing techniques and we analyze the optimization requirements for performance improvement of the distributed processing techniques for a large amount of data. In addition, we uses the Hadoop and we evaluate the performance of the distributed data processing techniques for their optimization requirements.

Management of Advanced Information Communication Processing System using TMN Technology (TMN 개념을 이용한 대용량 통신처리 시스템 관리)

  • 권선준;이현우
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1998.11a
    • /
    • pp.290-293
    • /
    • 1998
  • 대용량 통신처리 시스템은 전화망, 패킷망 및 ISDN 망 둥 다양한 통신망으로부터 접속하는 사용자들에게 text 기반의 서비스 및 인터넷 서비스의 제공을 목표로 한다. 대용량통신처리시스템은 전화망, 패킷망 및 ISDN 망을 access 망으로 하고, 패킷망 및 Internet을 전달망으로 하여 다양한 서비스를 제공하는 구조를 갖는다. 대용량통신처리시스템은 제공하는 서비스들에 대하여 access 망에 대한 과금 및 전달망에 대한 과금 데이터를 제공하여 정확한 과금이 부과될 수 있는 기본 데이터를 제공한다. 대용량통신처리시스템은 이러한 망을 access하는 망접속 서브시스템들로 구성되는데 본 논문에서는 각 망접속 서브시스템들 및 구성요소들의 관리를 전담하는 LOMS(Local Operations and Management System)의 소프트웨어 구성 및 관리절차에 대하여 기술한다.

  • PDF

Bioinformatics for constructing bio-pathways (바이오 네트워크 구축을 위한 바이오인포매틱스 기반 기술)

  • 박선희
    • Proceedings of the Optical Society of Korea Conference
    • /
    • 2003.02a
    • /
    • pp.124-125
    • /
    • 2003
  • 바이오인포매틱스 기술이란 정보통신 인프라와 IT기술을 기반으로 분산되어 있는 대용량의 바이오 데이터 및 문헌 정보를 통합적으로 관리, 분석 및 처리하여 각종 바이오 정보 활용 분야(신약개발, 의료진단, 농산물 개량 등)에 효율적으로 응용 서비스하기 위한 IT-BT융합 핵심 기반 요소 기술을 의미한다. 2000. 6. 인간 유전체 초안 완성 후 대량 획득되는 바이오 데이터의 최대 부가가치 창출을 위해 대용량 바이오 데이터로부터 유용한 지식정보를 자동적으로 추출해내기 위한 효율적인 통합분석 기술이 필요하고 이는 바이오인포매틱스 기본 개념이 된다. (중략)

  • PDF

A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System (인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법)

  • Han, Hyeok;Choi, Jae-Yong;Jin, Sung-Il
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.