• Title/Summary/Keyword: and Parallel Processing

Search Result 2,013, Processing Time 0.042 seconds

Concurrent Hash Table Optimized for NUMA System (NUMA 시스템에 최적화된 병렬 해시 테이블)

  • Choi, JaeYong;Jung, NaiHoon
    • Journal of Korea Game Society
    • /
    • v.20 no.5
    • /
    • pp.89-98
    • /
    • 2020
  • In MMO game servers, NUMA (Non-Uniform Memory Access) architecture is generally used to achieve high performance. Furthermore, such servers normally use hash tables as internal data structure which have constant time complexity for insert, delete, and search operations. In this study, we proposed a concurrent hash table optimized for NUMA system to make MMO game servers improve their performance. We tested our hash table on 4 socket NUMA system, and the hash table shows at most 100% speedup over another high-performance hash table.

Bit-rate Scalable Video Coder Using a $2{\times}2{\times}2$ DCT for Progressive Transmission

  • Woo, Seock-Hoon;Park, Jin-Hyung;Won, Chee-Sun
    • Proceedings of the IEEK Conference
    • /
    • 2000.07a
    • /
    • pp.66-69
    • /
    • 2000
  • In this paper, we propose a progressive transmission of a video using a 2$\times$2$\times$2 DCT First of all, the video data is transformed into multiresolution represented video data using a 2$\times$2$\times$2 DCT. Then. it is represented by a 3-D EZT(Embedded Zero Tree) coding fur the progressive transmission with a bit-rate scalability. The proposed progressive transmission algorithm needs much less computations and buffer memories than the higher-order convolution based wavelet filter. Also, since the 2$\times$2$\times$2 DCT requires independent local computations, parallel processing can be applied.

  • PDF

Liuux Cluster based Biological Sequence Parallel Processing Model Development and Efficiency Verification (리눅스 클러스터기반 유전자서열분석 병렬처리 모형 개발 및 성능 검증)

  • 박미화;김재우;박춘규;유승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.106-108
    • /
    • 2003
  • Human Genome Project와 같은 대형 Sequencing 프로젝트와 High-throughput Sequencing 기술의 발전으로 현재 Expressed Sequence Tag (EST)와 같은 대량의 DNA 서열들이 생산되고 있다. 이를 효과적이고 효율적으로 분석해야 할 필요성이 증대되고 있다. 대부분의 실험자들이 서열 분석을 위해 우선적으로 BLAST 검색을 이용하고 있다. 하지만 대량의 서열, 검색 DB의 크기, BLAST 검색 결과의 복잡성에 의해 어려움을 겪고 있다. 이에 빠르고 정리된 결과를 보여줄 수 있는 BLAST 검색 시스템의 필요성이 커지고 있다. 이에 본 논문은 미국 생명공학연구소(NCBI)에서 제공하는 유전자 서열 검색 툴인 BLAST(Basic Logical Alignment Tool)를 클러스터 수퍼 컴퓨터 구축 기술을 기반으로 한 병렬처리와 Gene Ontology를 이용하여 방대한 양의 서열 검색 결과를 요약하는 모형을 제시한다. 이것은 신약개발 및 유전자 발굴 등의 연구기간을 획기적으로 단축시켜 신약 개 발, 농업, 화학, 의료, 환경 등 생명공학 연구에 핵심적인 역할을 할 수 있다. 또한 성능 실험을 통하여 분석결과 대기시간을 최소화하는 병렬처리모형의 효율성을 검증하였다.

  • PDF

Design of AV Engine executed on Parallel Processing System (병렬처리 서버에서 실행되는 안티바이러스 엔진의 설계)

  • 유주영;최주영;김미애;박유미;박은옥;최은정;김윤정;김명주
    • Proceedings of the Korea Institutes of Information Security and Cryptology Conference
    • /
    • 2003.12a
    • /
    • pp.665-668
    • /
    • 2003
  • 컴퓨터 바이러스 문제에 대한 해결 주체는 현재의 클라이언트 중심에서 서버 중심으로 옮겨가는 것이 바람직하다. 그러나 지금까지 나온 서버용 안티바이러스 엔진들은 기존의 클라이언트용 엔진에 대한 반복 구현적인 성격이 강했기에 서버 시스템 자체의 특성을 충분히 감안하지 못하고 있다. 본 논문에서는 대부분의 서버들이 다수의 CPU 가진 병렬처리 시스템임을 감안하여 이러한 특징을 반영하여 전체적인 시스템 효율성을 높이도록 새로운 안티바이러스 엔진을 설계한 후 현재 구현 중인 주요 연구 내용을 소개한다. 다중프로세서 시스템에서 실행되는 안티바이러스 엔진은 하나의 모니터링 모듈에 다수의 동등한 에이전트 엔진을 가지고 구성된다. 모니터링 모듈은 엔진의 설치와 동적 부하균형, 자동갱신 등의 일을 담당한다. 에이전트 엔진들은 안티바이러스 기능을 기반으로 다양한 실행패턴을 가질 수 있으며 이를 통하여 서버에서 수행되는 효율성을 높일 수 있게 해준다.

  • PDF

A Method to Access Data for Spatial Operation in Parallel Distributed Processing System (병렬 분산 처리 시스템에서 공간 연산을 위한 데이터 접근 방안)

  • Kim, Jindeog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.442-444
    • /
    • 2016
  • 과거에 비해 비약적으로 생산되는 공간 데이터에 대한 처리를 위한 공간 연산은 빠른 처리 응답성을 요구하는 경우가 많다. 그래서 최근 하둡(Hadoop)과 같은 빅데이터 처리 시스템을 이용하여 처리하고자 하는 시도가 많다. 한편, 공간 조인은 데이터 분할(Partitioning)과 공간 색인의 이용 여부, 여과 단계와 정제 단계를 거치는 등 그 복잡도가 강한 공간 연산이다. 그래서 빅데이터 처리 시스템을 이용한 공간 조인의 처리 방식은 매우 다양하다. 그러나 지금까지 이러한 공간 조인의 처리 방식에 다른 리소스 활용에 대한 비교는 거의 없다. 이 논문에서는 다양한 공간 연산의 수행 방법에 따른 빅데이터 시스템 클러스터에서 데이터 전송 방식을 고찰하고 데이터 전송에 따른 네트워크 리소스의 효율적인 사용 방안을 제안하고자 한다. 구체적으로 단일할당과 다중할당 색인 기법의 비교, 파티셔닝 방법의 비교, 맵리듀스 시스템의 태스크 할당 방법에 따른 비교를 통해 다양한 연산 유형에 따른 공간 조인의 처리 방안 선정에 고려 요소를 제시하고자 한다.

  • PDF

A Multithreaded Architecture for the Efficient Execution of Vector Computations (벡타 연산을 효율적으로 수행하기 위한 다중 스레드 구조)

  • Yun, Seong-Dae;Jeong, Gi-Dong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.2 no.6
    • /
    • pp.974-984
    • /
    • 1995
  • This paper presents a design of a high performance MULVEC (MULtithreaded architecture for the VEctor Computations), as a building block of massively parallel Processing systems. The MULVEC comes from the synthesis of the dataflow model and the extant super sclar RISC microprocesso r. The MULVEC reduces, using status fields, the number of synchronizations in the case of repeated vector computations within the same thread segment, and also reduces the amount of the context switching, network traffic, etc. After be nchmark programs are simulated on the SPARC station 20(super scalar RISC microprocessor)the performance (execution time of programs and the utilization of processors) of MULVEC and the performance(execution time of a program) of *Taccording the different numbers of node are analyzed. We observed that the execution time of the program in MULVEC is faster than that in * T about 1-2 times according the number of nodes and the number of the repetitions of the loop.

  • PDF

Multiple Pipelined Hash Joins using Synchronization of Page Execution Time (페이지 실행시간 동기화를 이용한 다중 파이프라인 해쉬 결합)

  • Lee, Kyu-Ock;Weon, Young-Sun;Hong, Man-Pyo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.7
    • /
    • pp.639-649
    • /
    • 2000
  • In the relational database systems, the join operation is one of the most time-consuming query operations. Many parallel join algorithms have been developed to reduce the execution time. Multiple hash join algorithm using allocation tree is one of most efficient ones. However, it may have some delay on the processing each node of allocation tree, which is occurred in tuple-probing phase by the difference between one page reading time of outer relation and the processing time of already read one. In this paper, to solve the performance degrading problem by the delay, we develop a join algorithm using the concept of 'synchronization of page execution time' for multiple hash joins. We reduce the processing time of each nodes in the allocation tree and improve the total system performance. In addition, we analyze the performance by building the analytical cost model and verify the validity of it by various performance comparison with previous method.

  • PDF

Design of an Area-Efficient Reed-Solomon Decoder using Pipelined Recursive Technique (파이프라인 재귀적인 기술을 이용한 면적 효율적인 Reed-Solomon 복호기의 설계)

  • Lee, Han-Ho
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.42 no.7 s.337
    • /
    • pp.27-36
    • /
    • 2005
  • This paper presents an area-efficient architecture to implement the high-speed Reed-Solomon(RS) decoder, which is used in a variety of communication systems such as wireless and very high-speed optical communications. We present the new pipelined-recursive Modified Euclidean(PrME) architecture to achieve high-throughput rate and reducing hardware-complexity using folding technique. The proposed pipelined recursive architecture can reduce the hardware complexity about 80$\%$ compared to the conventional systolic-array and fully-parallel architecture. The proposed RS decoder has been designed and implemented with the 0.13um CMOS technology in a supply voltage of 1.2 V. The result show that total number of gate is 393 K and it has a data processing rate of S Gbits/s at clock frequency of 625 MHz. The proposed area-efficient architecture can be readily applied to the next generation FEC devices for high-speed optical communications as well as wireless communications.

Design and implementation of an interpolator for high speed UWB system (고속 UWB 시스템을 위한 인터폴레이터의 설계 및 구현)

  • Kim, Sang-Dong;Lee, Jong-Hun;Jung, Woo-Young;Chong, Jong-Wha
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.44 no.1
    • /
    • pp.64-69
    • /
    • 2007
  • This paper designs an interpolator for a high speed ultra wide bandwidth (UWB). The UWB wireless technology will play a key role in short-range wireless connectivity supporting very high bit rates availability, low power consumption, and location capabilities. Because the UWB needs high operating speed, a cubic interpolator based on variable parameters for the UWB needs to be operated at a high speed. In order to improve an operating speed, the modified cubic interpolator is based on both a parallel processing and a pipelining in the existing interpolator simultaneously. Experimental results show that a maximum operating speed and period of the proposed interpolator using Stratix II EP2S60F1020C3 is 102.42MHz and 9.764ns, respectively. Compared to the conventional interpolator, the designed cubic parameter interpolator has been improved more than about 190%.

Parallelization and Performance Optimization of the Boyer-Moore Algorithm on GPU (Boyer-Moore 알고리즘을 위한 GPU상에서의 병렬 최적화)

  • Jeong, Yosang;Tran, Nhat-Phuong;Lee, Myungho;Nam, Dukyun;Kim, Jik-Soo;Hwang, Soonwook
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.2
    • /
    • pp.138-143
    • /
    • 2015
  • The Boyer-Moore algorithm is a single pattern string matching algorithm that is widely used in various applications such as computer and internet security, and bioinformatics. This algorithm is computationally demanding and requires high-performance parallel processing. In this paper, we propose a parallelization and performance optimization methodology for the BM algorithm on a GPU. Our methodology adopts an algorithmic cascading technique. This results in significant reductions in the mapping overheads for the threads participating in the parallel string matching. It also results in the efficient utilization of the multithreading capability of the GPU which improves the load balancing among threads. Our experimental results show that this approach achieves a 45-times speedup at maximum, in comparison with a serial execution.