• Title/Summary/Keyword: 데이터 처리량

Search Result 2,565, Processing Time 0.037 seconds

Efficient Binary Join Processing for Large Data Streams (대용량 데이터 스트림을 처리하기 위한 효율적 이진 조인 처리 기법)

  • Park, Hong-Kyu;Lee, Won-Suk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2008.06a
    • /
    • pp.189-192
    • /
    • 2008
  • 최근에 제한된 데이터 셋보다 센서 데이터 처리, 웹 서버 로그나 전화 기록과 같은 다양한 트랜잭션 로그 분석등과 관련된 대용량 데이터 스트림을 실시간으로 처리하는 것에 많은 관심이 집중되고 있으며, 특히 데이터 스트림의 조인 처리에 대한 관심이 증가하고 있다. 본 논문에서는 조인 연산을 빠르게 처리하기 위한 효율적인 해시 구조와 조인 방법에 대해서 연구하고 다양한 환경에서 제안 방법을 검증한다.

  • PDF

Incremental Decision Tree Classifier Using Global Discretization For Large Dataset (전역적 범주화를 이용한 대용량 데이터를 위한 순차적 결정 트리 분류기)

  • 한경식;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.352-354
    • /
    • 2002
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 결정 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나, 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 예제가 추가되면 이 예제를 반영한 결정 트리를 생성하기 위해 처음부터 다시 재생성해야 한다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있다. BOAT는 대용량 데이터를 지원하는 순차적 알고리즘이 지만 분할 포인트가 노드에서 유지하는 신뢰구간을 넘어서는 경우와 분할 변수가 변경되면 그에 영향을 받는 부분은 다시 생성해야 한다는 문제점을 안고 있고, 이에 반해 ITI는 분할 포인트 변경과 분할 변수 변경을 효율적으로 처리하지만 대용량 데이터를 처리하지 못해 오늘날의 순차적인 트리 생성 기법으로 적합하지 못하다. 본 논문은 ITI의 기본적인 트리 재구조화 알고리즘을 기반으로 하여 대용량 데이터를 처리하지 못하는 ITI의 한계점을 극복하기 위해 전역적 범주화 기법을 이용한 접근방법을 제안한다.

  • PDF

A Design on a Streaming Big Data Processing System (스트리밍 빅데이터 처리 시스템 설계)

  • Kim, Sungsook;Kim, GyungTae;Park, Kiejin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing (다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구)

  • Jung, Joo-Hyuk;Lee, Sang-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.

A Method to Provide Context from Massive Data Processing in Context-Aware System (상황인지 시스템에서 대용량의 데이터 처리결과를 컨텍스트 정보로 제공하기 위한 방법)

  • Park, Yoo Sang;Choi, Jong Sun;Choi, Jae Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.4
    • /
    • pp.145-152
    • /
    • 2019
  • Unlike a single value from a sensor device, a massive data set has characteristics for various processing aspects; input data may be formed in a different format, the size of input data varies, and the processing time of analyzing input data is not predictable. Therefore, context aware systems may contain complex modules, and these modules can be implemented and used in different ways. In order to solve these problems, we propose a method to handle context information from the result of analyzing massive data. The proposed method considers analysis work as a different type of abstracting context and suggests the way of representing context information. In experiment, we demonstrate how the context processing engine works properly in a couple of steps with healthcare services.

A Dynamic Prefetchiong Scheme for Handling Small Files based on Hadoop Distributed File System (하둡 분산 파일 시스템 기반 소용량 파일 처리를 위한 동적 프리페칭 기법)

  • Yoo, Sang-Hyun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.329-332
    • /
    • 2014
  • 클라우드 컴퓨팅이 활성화 됨에 따라 기존의 파일 시스템과는 다른 대용량 파일 처리에 효율적인 분산파일시스템의 요구가 대두 되었다. 그 중에 하둡 분산 파일 시스템(Hadoop Distribute File System, HDFS)은 기존의 분산파일 시스템과는 달리 가용성과 내고장성을 보장하고, 데이터 접근 패턴을 스트리밍 방식으로 지원하여 대용량 파일을 효율적으로 저장할 수 있다. 이러한 장점 때문에, 클라우드 컴퓨팅의 파일시스템으로 대부분 채택하고 있다. 하지만 실제 HDFS 데이터 집합에서 대용량 파일 보다 소용량 파일이 차지하는 비율이 높으며, 이러한 다수의 소 용량 파일은 데이터 처리에 있어 높은 처리비용을 초래 할 뿐 만 아니라 메모리 성능에 악영향을 끼친다. 하지만 소 용량 파일을 프리패칭 함으로서 이러한 문제점을 해결 할 수 있다. HDFS의 데이터 프리페칭은 기존의 데이터 프리페칭의 기법으로는 적용하기 어려워 HDFS를 위한 데이터 프리패칭 기법을 제안한다.

  • PDF

Concurrency processing comparison of large data list using GO language (GO언어를 이용한 대용량 데이터 리스트의 동시성 처리 비교)

  • Lee, Yoseb;Lim, Young-Han
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.2
    • /
    • pp.361-366
    • /
    • 2022
  • There are several ways to process large amounts of data. Depending on the processing method, there is a big difference in processing speed to create a large data list. Typically, to make a large data list, large data is converted into a normalized query, and the result of the query is stored in a List Map and converted into a printable form. This process occurs as a cause of lowering the processing speed step by step. In the process of storing the results of the created query as a List Map, the processing speed differs because the data is stored in a different format for each type of data. Through the simultaneous processing of GO language, we want to solve the problem of the existing difference in processing speed. In other words, it compares the results of GO language concurrency processing by providing how different and how it proceeds between the format contained in the existing List Map and the method of processing using concurrency in large data lists for faster processing. do.

Image Data Processing for Ubiquitous Database (유비쿼터스 데이터베이스를 위한 이미지 데이터 처리 기법)

  • Seo Dong-Wun;Choi Jin-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.81-84
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 환경으로 발전하면서 문자열 위주의 획일적 형태에서 음성, 이미지 등 다양한 형태의 데이터들을 처리하게 되었으며, 또한 빠르고 정확하게 처리되기를 요구하고 있다. 현재 데이터 처리 중심부에 있는 Database는 대부분이 Relation DB 위주로 되어 있어 Datafile 에 데이터를 저장하고 있어 대용량의 이미지 데이터 처리에 적합하지가 않다. 본 논문에서는 이러한 단점을 보강하기 위해 Relation DB 하에서 대용량의 이미지 데이터 처리를 가능하게 하는 기법을 제시한다. 이렇게 함으로써 이미지 데이터를 Upload, Download 시 따른 응답 속도를 보장 할 수 있도록 LRU 알고리즘 기반으로 제안을 하였다. 본 논문에서 제안된 기법은 시뮬레이션을 통해 (1)기존 RDB(Relational Database)의 BLOB(Binary Large Object)필드를 이용한 이미지 데이터 처리 방식, (2)별도의 저장 공간에 이미지 데이터를 입/출하는 방식, (3)별도의 저장 공간에 이미지 데이터를 입/출력할 때 LRU(least Recently Used)알고리즘을 이용하는 방식에 대하여 성능 평가를 하였다. 그 결과 (3)별도의 저장 공간에 LRU(least Recently Used)알고리즘을 이용하여 입/출력하는 방식이 (1)기존의 RDB(Relational Database)형태에 BLOB(binary large object)필드를 이용한 것 보다 성능이 높음을 확인하였다.

  • PDF

CPS Data Analysis Architecture using Open Source Projects (공개소스프로젝트를 이용한 사이버물리시스템 데이터분석아키텍처)

  • Lim, Yoojin;Choi, Eunmi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.172-175
    • /
    • 2013
  • 사이버물리시스템(CPS)은 실시간 제약으로 타이밍에 민감한 특징이 있으며, 산업 영역에 적용시 시스템 동작과 안전필수 로그의 특정한 패턴을 나타내는 대용량의 실시간 데이터를 생성시킨다. 본 논문은 공개소스프로젝트인 하둡에코시스템을 이용한 CPS 데이터분석 아키텍처를 소개한다. CPS 처리의 특징 때문에 그 대용량의 데이터 처리는 하나의 머신에서 분석될 수 없으므로, 하둡에코시스템을 통하여 실시간 기반으로 생성되는 데이터를 저장하고 처리하는 시스템 아키텍처를 제안한다. 하둡분산파일시스템(HDFS)은 거대한 CPS 데이터의 저장을 위한 기본 파일시스템이고, 하이브는 데이터웨어하우징 처리를 위한 CPS 데이터분석에 사용된다. 플룸은 서버들로부터 데이터를 수집하고 HDFS에서 그 데이터를 처리하기 위해 사용되며, Rhive는 데이터 마이닝과 분석을 적용하기 위해 사용된다. 이러한 아키텍처를 개관하고, 또한 효과적인 데이터 분석을 위해 사용한 시스템 설계 전략을 소개한다.

Image Machine Learning System using Apache Spark and OpenCV on Distributed Cluster (Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경 대용량 이미지 머신러닝 시스템)

  • Hayoon Kim;Wonjib Kim;Hyeopgeon Lee;Young Woon Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.33-34
    • /
    • 2023
  • 성장하는 빅 데이터 시장과 빅 데이터 수의 기하급수적인 증가는 기존 컴퓨팅 환경에서 데이터 처리의 어려움을 야기한다. 특히 이미지 데이터 처리 속도는 데이터양이 많을수록 현저하게 느려진다. 이에 본 논문에서는 Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경의 대용량 이미지 머신러닝 시스템을 제안한다. 제안하는 시스템은 Apache Spark를 통해 분산 클러스터를 구성하며, OpenCV의 이미지 처리 알고리즘과 Spark MLlib의 머신러닝 알고리즘을 활용하여 작업을 수행한다. 제안하는 시스템을 통해 본 논문은 대용량 이미지 데이터 처리 및 머신러닝 작업 속도 향상 방법을 제시한다.