• 제목/요약/키워드: Large-memory data processing

검색결과 192건 처리시간 0.025초

분산 인-메모리 환경에서 부하 분산을 위한 데이터 복제와 이주 기법 (Data Replication and Migration Scheme for Load Balancing in Distributed Memory Environments)

  • 최기태;윤상원;박재열;임종태;복경수;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.44-49
    • /
    • 2016
  • 최근 소셜 미디어의 성장과 디지털 기기의 활용이 증가함에 따라 데이터가 기하급수적으로 급증하고 있다. 이러한 대용량의 데이터를 효율적으로 처리하기 위해 분산 메모리 처리 시스템을 사용한다. 하지만 분산 환경에서 특정 노드에 부하가 집중이 되면 노드의 성능이 저하되는 문제가 발생한다. 본 논문은 분산 메모리 환경에서 노드의 부하를 적절하게 분배하는 부하 분산 기법을 제안한다. 제안하는 기법은 노드의 부하를 관리하기 위해 핫 데이터를 여러 노드에 복제하고 노드가 추가되거나 삭제될 때 노드의 부하를 고려하여 데이터를 이주시킨다. 클라이언트는 핫 데이터의 메타데이터 정보를 유지하여 직접 노드에 접근함으로써 중앙 서버의 접근을 감소시킨다. 성능 평가를 통해 제안하는 부하 분산 관리 기법이 기존에 캐시 관리 기법에 비해 우수함을 입증한다.

통합메모리 장치에서 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of Unified Memory Device)

  • 권오경;구기범
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권5호
    • /
    • pp.133-138
    • /
    • 2022
  • 최근 고성능컴퓨팅, 인공지능 분야에서 GPU 장치 사용이 일반화되고 있지만, GPU 프로그래밍은 여전히 어렵게 여겨진다. 특히 호스트(host) 메모리와 GPU 메모리를 별도로 관리하기 때문에 성능과 편의성 방면에서 연구가 활발히 진행되고 있다. 이에 따라 여려가지 CPU-GPU 메모리 전송 방법들이 연구되고 있다. 한편 CPU와 GPU 및 통합메모리(Unified memory) 등 하나의 실리콘 패키지로 묶는 SoC(System on a Chip) 제품들이 최근에 많이 출시되고 있다. 본 연구는 이러한 통합메모리 장치에서 CPU, GPU 장치간 데이터를 사용하고 전송시 성능관련 비교를 하고자 한다. 기존 CPU내 호스트 메모리와 GPU 메모리가 분리된 환경과는 다른 특징을 보여준다. 여기서는 통합메모리 장치인 NVIDIA SoC칩들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 간 데이터 전송 프로그래밍 기법별로 성능비교를 한다. 성능비교를 위해 워크로드는 HPC 분야의 수치계산에서 자주 사용하는 2차원 행렬 전치 커널이다. 실험을 통해 CPU-GPU 메모리 전송 프로그래밍 방법별 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리를 사용했을 경우 전송 성능차이, 전체(Overall) 성능비교, 마지막으로 워크로드 크기별 성능비교를 하였다. 이를 통해 통합메모리칩인 NVIDIA Xavier에서 I/O 캐시일관성 지원을 통해 SoC 칩내 통합메모리에 대한 이점을 극대화 할 수 있음을 확인할 수 있었다.

분산 공유메모리를 기반으로 한 서브 클러스터 그룹의 자료전송방식 (A Data Transfer Method of the Sub-Cluster Group based on the Distributed and Shared Memory)

  • 이기준
    • 정보처리학회논문지A
    • /
    • 제10A권6호
    • /
    • pp.635-642
    • /
    • 2003
  • 최근 네트워크 기술의 비약적인 발전은 고속 그리고 저가의 클러스터 시스템을 구축할 수 있는 기본 토대를 제공하여 주었다. 이러한 기존 클러스터 시스템은 안정화된 고속의 지역 네트워크를 기반으로 일정 수준의 시스템으로 구성되는 것이 일반적인 경향이다. 본 논문에서 제안하는 다중 분산 웹 클러스터 그룹은 개방 네트워크상에 존재하는 저가, 저속의 시스템 노드를 대상으로 하여, 주어진 작업에 대한 병렬수행 및 SC-Sever의 공유메모리를 통한 효율적인 작업 분배와 시스템 노드간의 상호 협조 작업을 통하여 고성능, 고효율 그리고 고가용성을 얻을 수 있는 웹 클러스터 모델이다. 이를 위하여 다중 분산 웹 클러스터 그룹은 복수개의 시스템 노드를 단일한 가상 네트워크로 묶어 놓은 서브 클러스터 그룹으로 구성하고, 서브 클러스터 그룹내의 효율적인 자료전송을 위하여 분산 공유 메모리를 이용한다. 제안된 모델은 사용자로부터 요구되는 대규모의 작업에 대하여 분산 공유 메모리를 기반으로 한 부하분배 및 병렬 컴퓨팅 방식을 이용하므로 처리 효율을 높일 수 있다.

디스크 기반 그래프 엔진의 입출력 성능 향상을 위한 그래프 오더링 (Improving the I/O Performance of Disk-Based Graph Engine by Graph Ordering)

  • 임근학;김정현;이은재;서지원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권1호
    • /
    • pp.40-45
    • /
    • 2018
  • 빅데이터와 소셜 네트워크의 발전과 더불어 거대한 그래프를 처리하는 연구도 활발하게 진행되고 있다. 최근 그래프 처리의 성능 향상을 위해 Gorder 라는 그래프 오더링 기법이 제안되었다. 이 기법은 메모리 상의 그래프 레이아웃을 변형하여 데이터 접근 패턴을 CPU 캐시에 적합하게 바꿈으로써 성능을 향상시킨다. 하지만 그래프 알고리즘의 캐시 지역성에만 초점을 두고 설계되었기 때문에 디스크 기반 그래프 엔진에서는 적합하지 않고 전처리 비용도 크다는 문제점이 있다. 제시한 문제점을 해결하기 위해, 본 논문에서는 새로운 그래프 오더링인 I/O Order를 제안하였다. I/O Order는 디스크 기반의 그래프 엔진에서 지역성 외에 입출력 부하를 고려하여 설계되었다. 또한, 오더링 비용을 줄이기 위해 간단한 scheme을 사용한다. 본 논문에서 제시된 I/O Order는 Gorder와 비교해 전처리 비용이 최대 9.6배 감소하였고 성능은 지역성이 낮은 그래프 알고리즘에서 Random 대비 최대 2배 이상 향상되었다.

Web GIS를 위한 주기억 장치 기반 공간 색인 (Spatial Index based on Main Memory for Web CIS)

  • 김진덕;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.191-194
    • /
    • 2001
  • 최근 메모리 가격의 하락과 함께 주기억 장치 기반 데이터베이스 기술의 필요성이 대두되고 있다. 또한 불특정 다수가 인터넷 환경을 통해 이용하는 Web GIS(Geographical Information System)는 데이터의 변경보다는 분석을 위한 데이터 검색이 많으며 고속의 처리를 요구한다. 그러므로 Web GIS를 위한 데이터 저장 하부구조로서 디스크를 기반으로 하는 것보다 메모리를 기반으로 함이 바람직하다. 이 논문에서는 Web GIS에서 널리 사용되고 있는 다차원 공간 데이터를 주기억 장치에 보다 적은 저장 용량으로 표현할 수 있는 방법으로서 상대 좌표값과 MBR(Minimum Sounding Rectangle)의 크기를 이용한 데이터 표현법을 제안한다. 그리고 점 질의나 영역 질의를 간단한 방법으로 처리하는 메모리 기반 공간 색인 기법을 제안한다. 실험 결과 색인의 크기와 MBR 비교 연산의 횟수 측면에서 불균일 분포 데이터에서도 좋은 성능을 보임을 알 수 있다.

  • PDF

Spark 기반에서 Python과 Scala API의 성능 비교 분석 (Performance Comparison of Python and Scala APIs in Spark Distributed Cluster Computing System)

  • 지경엽;권영미
    • 한국멀티미디어학회논문지
    • /
    • 제23권2호
    • /
    • pp.241-246
    • /
    • 2020
  • Hadoop is a framework to process large data sets in a distributed way across clusters of nodes. It has been a popular platform to process big data, but in recent years, other platforms became competitive ones depending on the characteristics of the application. Spark is one of distributed platforms to enable real-time data processing and improve overall processing performance over Hadoop by introducing in-memory processing instead of disk I/O. Whereas Hadoop is designed to work on Java and data analysis is processed using Java API, Spark provides a variety of APIs with Scala, Python, Java and R. In this paper, the goal is to find out whether the APIs of different programming languages af ect the performances in Spark. We chose two popular APIs: Python and Scala. Python is easy to learn and is used in AI domain in a wide range. Scala is a programming language with advantages of parallelism. Our experiment shows much faster processing with Scala API than Python API. For the performance issues on AI-based analysis, further study is needed.

PPFP(Push and Pop Frequent Pattern Mining): 빅데이터 패턴 분석을 위한 새로운 빈발 패턴 마이닝 방법 (PPFP(Push and Pop Frequent Pattern Mining): A Novel Frequent Pattern Mining Method for Bigdata Frequent Pattern Mining)

  • 이정훈;민연아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권12호
    • /
    • pp.623-634
    • /
    • 2016
  • 현존하는 빈발 패턴 마이닝 방법은 대부분 시간 효율성을 목표로 하고, 물리적 메모리 사용에 매우 의존적이다. 하지만 빅데이터 시대가 도래함에 따라 실제 세상의 데이터베이스는 급속도로 증가하고 있으며, 그에 따라 기존의 방법으로 현실적인 거대한 양의 데이터를 마이닝하기에 물리적 메모리 공간이 부족한 실정이다. 이러한 문제를 해결하기 위해, 빈발 패턴 마이닝의 메모리 의존성을 줄이기 위한 보조저장장치 기반의 연구들이 진행되었으나, 메모리 기반의 방법들에 비해 처리 시간이 너무 많이 소비된다는 한계가 있었다. 따라서 확장성을 가지며, 기존의 디스크 기반의 방법들에 비해 시간효율성을 높인 새로운 빈발 패턴 마이닝이 필요하게 되었다. 본 논문에서는 빅데이터로부터 빈도 아이템 집합들을 마이닝하기 위해 메모리와 디스크를 함께 사용하는 스택 기반의 새로운 접근법인 PPFP 알고리즘을 제안하였다. PPFP는 빈발 패턴 마이닝 접근법 중 가장 인기 있고 효율적인 접근법 중 하나인 FP-growth를 기반으로 하고 있다. PPFP 마이닝 방법은 다음과 같이 두 단계로 진행된다. (1) IFP-tree 구축: FP-tree를 생성한 후, 새로운 인덱스 번호 부여 방법으로 FP-tree의 각 노드에 인덱스 번호를 부여하고, 이 인덱스 번호가 부여된 FP-tree(IFP-tree)를 테이블로 변환하여(IFP-table) 디스크에 저장한다. (2) PPFP 알고리즘을 이용한 빈발 패턴 마이닝: 스택 기반의 PUSH-POP 방식으로 패턴을 확장시켜 나가며 빈발 패턴을 마이닝한다. 이러한 방식을 통해 메모리 기반의 방법에 비해 반복적으로 많은 시간이 소모되는 연산에 매우 적은 양의 메모리를 활용하여 확장성과 함께 시간효율성 또한 향상시킬 수 있었다. 그리고 기존의 연구 방법들과 비교 실험을 통해 새로운 알고리즘의 성능을 증명하였다.

MapReduce에서 Reuse JVM을 이용한 대규모 스몰파일 처리성능 향상 방법에 관한 연구 (A Study on the Improving Performance of Massively Small File Using the Reuse JVM in MapReduce)

  • 최철웅;김정인;김판구
    • 한국멀티미디어학회논문지
    • /
    • 제18권9호
    • /
    • pp.1098-1104
    • /
    • 2015
  • With the widespread use of smartphones and IoT (Internet of Things), data are being generated on a large scale, and there is increased for the analysis of such data. Hence, distributed processing systems have gained much attention. Hadoop, which is a distributed processing system, saves the metadata of stored files in name nodes; in this case, the main problems are as follows: the memory becomes insufficient; load occurs because of massive small files; scheduling and file processing time increases because of the increased number of small files. In this paper, we propose a solution to address the increase in processing time because of massive small files, and thus improve the processing performance, using the Reuse JVM method provided by Hadoop. Through environment setting, the Reuse JVM method modifies the JVM produced conventionally for every task, so that multiple tasks are reused sequentially in one JVM. As a final outcome, the Reuse JVM method showed the best processing performance when used together with CombineFileInputFormat.

DESIGN AND IMPLEMENTATION OF 3D TERRAIN RENDERING SYSTEM ON MOBILE ENVIRONMENT USING HIGH RESOLUTION SATELLITE IMAGERY

  • Kim, Seung-Yub;Lee, Ki-Won
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume I
    • /
    • pp.417-420
    • /
    • 2006
  • In these days, mobile application dealing with information contents on mobile or handheld devices such as mobile communicator, PDA or WAP device face the most important industrial needs. The motivation of this study is the design and implementation of mobile application using high resolution satellite imagery, large-sized image data set. Although major advantages of mobile devices are portability and mobility to users, limited system resources such as small-sized memory, slow CPU, low power and small screen size are the main obstacles to developers who should handle a large volume of geo-based 3D model. Related to this, the previous works have been concentrated on GIS-based location awareness services on mobile; however, the mobile 3D terrain model, which aims at this study, with the source data of DEM (Digital Elevation Model) and high resolution satellite imagery is not considered yet, in the other mobile systems. The main functions of 3D graphic processing or pixel pipeline in this prototype are implemented with OpenGL|ES (Embedded System) standard API (Application Programming Interface) released by Khronos group. In the developing stage, experiments to investigate optimal operation environment and good performance are carried out: TIN-based vertex generation with regular elevation data, image tiling, and image-vertex texturing, text processing of Unicode type and ASCII type.

  • PDF

복잡한 구조의 데이터 중복제거를 위한 효율적인 알고리즘 연구 (Study of Efficient Algorithm for Deduplication of Complex Structure)

  • 이협건;김영운;김기영
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.29-36
    • /
    • 2021
  • IT기술의 발달로 인해 발생되는 데이터양은 기하급수적으로 급격하게 증가하고 있으며, 데이터 구조의 복잡성은 높아지고 있다. 빅데이터 분석가와 빅데이터 엔지니어들은 이러한 빅데이터들을 보다 빠르게 데이터 처리 및 데이터 분석을 수행을 목표로 분석 대상의 데이터양을 최소화하기 위한 연구가 기업 및 가관 등 활발하게 이뤄지고 있다. 빅데이터 플랫폼으로 많이 활용되는 하둡은 서브프로젝트인 Hive를 통해 분석 대상의 데이터 최소화 등 다양한 데이터 처리 및 데이터 분석 기능을 제공하고 있다. 그러나 Hive는 데이터의 복잡성을 고려하지 않고 구현되어 중복 제거에 방대한 양의 메모리를 사용한다. 이에 복잡한 구조의 데이터 중복제거를 위한 효율적인 알고리즘을 제안한다. 성능평가 결과, 제안하는 알고리즘은 Hive에 비해 메모리 사용량은 최대 79%, 데이터 중복제거 시간은 0.677% 감소한다. 향후, 제안하는 알고리즘의 현실적인 검증을 위해 다수의 데이터 노드 기반 성능 평가가 필요하다.