• 제목/요약/키워드: 병렬 전송

검색결과 468건 처리시간 0.027초

병렬처리를 위한 고성능 라이브러리의 구현과 성능 평가 (Implementation and Performance Analysis of High Performance Computing Library for Parallel Processing)

  • 김영태;이용권
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권7호
    • /
    • pp.379-386
    • /
    • 2004
  • 본 연구에서는 병렬프로그램을 효율적으로 개발할 수 있고 병렬처리 프로그램의 성능을 향상시키는 이식성을 갖는 고성능 병렬 라이브러리인 HPCL(High Performance Computing Library)을 구현하였다. HPCL은 C 언어와 Fortran 언어로 구현되었으며, Fortran 프로그램에서 메시지 전송 인터페이스인 MPI(Message Passing Interface)를 효율적으로 사용할 수 있도록 하였다. 성능 분석은 PC 클러스터와 상업용 슈퍼컴퓨터인 IBM SP4를 이용하여 병렬프로그램의 성능 향상 및 통신 오버헤드 등에 대하여 다양하게 이루어졌다.

병렬 어레이 프로세서 기반 U-Chip 및 H.264 디코더의 병렬 파이프라인 구조 (Parallel Pipeline Architecture of H.264 Decoder and U-Chip Based on Parallel Array)

  • 석정희;여준기;노태문
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 추계학술대회
    • /
    • pp.161-164
    • /
    • 2013
  • 본 논문에서는 다양한 멀티미디어 코덱을 고속으로 처리하기 위하여 전용하드웨어가 아닌 병렬 어레이 프로세서 기반의 U-Chip(Universal-Chip) 구조를 제안하고 TSMC 80nm 공정을 사용하여 11,865,090개의 게이트 수를 가지는 칩으로 개발하였다. U-Chip은 역양자화(IQ), 역변환(IT), 움직임 보상(MC) 연산을 위한 $4{\times}16$ 개의 프로세싱 유닛으로 구성된 병렬 어레이 프로세서와 문맥적응적 가변길이디코딩(CAVLC)을 위한 비트스트림 프로세서와 인트라 예측(IP), 디블록킹필터(DF) 연산을 위한 순차 프로세서와 DMAC의 데이터 전송 및 각 프로세서를 제어하여 병렬 파이프라인 스케쥴링을 처리하는 시퀀서 프로세서 등으로 구성된다. 1개의 프로세싱 유닛에 1개의 매크로블록 데이터를 맵핑하여 총 64개의 매크로블록을 병렬처리 하였다. 64개 매크로블록의 대용량 데이터 전송 시간과 각 프로세서들의 연산을 동시에 병렬 파이프라인 함으로서 전체 연산 성능을 높일 수 있는 이점이 있다. 병렬 파이프라인 구조의 H.264 디코더 프로그램을 개발하였고 제작된 U-Chip을 통해 $720{\times}480$ 크기의 베이스라인 프로파일 영상에 대하여 코어 192MHz 동작, DDR 메모리 96MHz 동작에서 30fps의 처리율을 가짐을 확인하였다.

  • PDF

MMT 기반의 실시간 대용량 미디어 전달을 위한 병렬 전송 효율 개선 (Improvement of Parallel Transmission Throughput for Transporting Real-time Mass Media Based on MMT)

  • 안은빈;김아영;원광은;윤재관;서광덕
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.338-339
    • /
    • 2018
  • 최근 실시간 대용량 미디어에 대한 사용자의 요구가 증가함에 따라 자연스러운 영상 재생을 위한 전송 기법이 활발히 연구되고 있다. MPEG MMT 는 이러한 차세대 대용량 미디어 전송 규격으로 주목 받고 있다. 하지만 실시간 대용량 미디어의 크기는 점차 커지고 있고 이에 따라 보다 효율적이고 빠른 전송을 위해서 다각도의 연구가 필요하다. 본 논문에서는 MMT 기반의 실시간 대용량 미디어 전송의 개선을 위하여 병렬 전송을 제안하고 이에 따른 MMT 의 활용 방법을 제시한 인터페이스를 소개한다.

  • PDF

공간 데이터의 병렬성을 고려한 VIA 기반의 클러스트 시스템 설계 및 구현 (The Design and Implementation of VIA-based Cluster System for spatial data's parallelism)

  • 박시용;박성호;정기동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.653-656
    • /
    • 2000
  • 본 논문에서는 공간데이터의 병렬성을 고려한 클러스트 시스템을 제안하였다. 클러스트 시스템의 큰 단점인 다단계 프로토콜 스택에서 오는 메시지 전송 부하를 줄인 VIA(Virtual Interface Architecture)를 기반으로 클러스트 시스템을 구성하고 저장 서버들간에는 공간데이터의 지역성에 기반하여 데이터를 배치하며 저장 서버들 내에서는 공간 데이터의 병렬성을 고려하여 EPR(Enhanced Parallel R-tree)로 데이터를 배치하였다. 위의 클러스트 시스템을 기반으로 적절한 전송 데이터 크기와 전송 횟수를 구하기 위한 실험을 실시하였다.

  • PDF

변조레벨 제어 다중반송파 CDMA 시스템 (Modulation Level-Controlled Multicarrier CDMA System)

  • 황봉준;박형근
    • 한국정보통신학회논문지
    • /
    • 제12권9호
    • /
    • pp.1646-1653
    • /
    • 2008
  • 본 논문에서는 전송 채널의 주파수 선택적 특성에 의한 전송 신호의 왜곡현상을 줄이며, 다양한 무선 전송 환경에 대해 일정한 전송 품질을 유지시키는 동시에 최대 데이터 전송률을 제공할 수 있는 다중 반송파 CDMA을 제안한다. 이 시스템은 채널 상태에 따라 작은 지연과 페이딩을 겪는 채널에서는 높은 데이터 전송률로 전송하고, 반면 빠른 페이딩과 긴 지연 성분을 갖는 채널에서는 낮은 전송률로 데이터를 전송한다. 두 경우 모두 다 송신기 구조에서 데이터 직병렬 변환 개수와 데이터 복사 개수를 조절함으로써 가능하다. 여기서, 제안한 시스템은 고정된 수의 부반송파를 갖는다. 따라서 위에서 언급한 직병렬 변화 개수와 데이터 복사 개수의 곱은 항상 일정하게 유지되므로 하드웨어의 변형 없이 구현될 수 있다. 제안한 시스템에서는 직병렬 변환 후 동일 데이터가 여러 다른 부반송파에 복사되어 전송되므로 주파수 다이버시티 이득을 얻을 수 있으며, 레이크(RAKE) 수신구조는 경로 다이버시티 이득도 얻을 수 있게 한다.

HPC 환경을 위한 데이터 전송 노드 클러스터 구축 및 성능분석 (Deployment and Performance Analysis of Data Transfer Node Cluster for HPC Environment)

  • 홍원택;안도식;이재국;문정훈;석우진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권9호
    • /
    • pp.197-206
    • /
    • 2020
  • HPC(High Performance Computing) 서비스를 기반으로 한 거대과학 응용분야의 협업연구는 원거리에 떨어져 있는 연구자들 사이에서 대용량 데이터의 빠른 전송을 필요로 한다. 이와 관련하여 최근 미국 내의 주요 슈퍼컴퓨터들을 연계하여 고속 전송하기 위한 연구들이 수행되고 있다. 본 논문에서는 기 구축되어 운영 중인 한국과학기술정보연구원의 누리온 슈퍼컴퓨터 병렬 파일시스템 내의 대용량 데이터를 고속 전송하기 위해서 고성능 과학기술연구망 기반의 데이터 전송 노드(DTN) 클러스터를 구축하고 종단간 왕복지연 시간이 약 130ms에 달하는 원거리 전송 실험을수행한다. 실험을 통해 다른 크기의 파일들로 구성된 실험 군들에 대해 DTN 클러스터링에 따른 전송 성능을 비교하였고, 3대의 멀티 노드로 구성된 DTN 클러스터는 두 종류의 병행성, 병렬성 설정에서 단일 노드 대비 각각 약 1.8, 2.7배의 전송 성능 향상을 가져올 수 있음을 확인하였다.

병렬처리와 가상격자를 이용한 대용량 항공 레이저 스캔 자료의 정규격자 수치표면모델 생성 (Generating Raster DSM from Airborne Laser Scanned Data Using Parallel Processing and Virtual Grid)

  • 한수희;허준;김성삼;김성훈
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2008년도 공동춘계학술대회
    • /
    • pp.318-321
    • /
    • 2008
  • 본 연구에서는 대용량의 항공 레이저 스캔 포인트 자료로부터 정규 격자 형태의 수치 표면 모델을 고속으로 생성하기 위하여 가상격자와 병렬처리를 기반으로 한 자료 처리 기법을 제안하였다. 수십$\sim$수백 평방 킬로미터 영역에 대하여 항공 레이저 스캔을 중복적으로 수행할 경우 포인트 수는 수억$\sim$수십억에 이르며 이를 일반적인 시스템에서 처리하는 데에는 한계가 존재한다. 이에 본 연구에서는 병렬처리를 위해 구성한 피씨 클러스터 상에서 자료를 분산시켜 가상격자를 이용하여 처리하는 방식을 제안하였다. 즉, 마스터 노드는 포인트 자료를 읽어 들여 포인트의 평면 좌표 값에 따라 슬래이브 노드로 전송하고 각 슬래이브 노드에서는 전송받은 포인트를 가상 격자에 저장한 후 보간(interpolation)을 수행한다. 보간 방식으로는 IDW(Inverse Distance Weightin)을 사용하였으며 제안한 방식의 효율성을 평가하기 위하여 사용된 슬래이브 노드 수에 대한 처리 시간을 측정하였다.

  • PDF

CUDA 를 이용한 가상 객체들간의 병렬 충돌 검사 알고리즘 (Parallel Intersection Detection Algorithm using CUDA)

  • 이연희;김영준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.451-455
    • /
    • 2008
  • CUDA 는 GPGPU 프로그래밍을 위해 nVIDIA 사에서 개발한 병렬 처리 프로그래밍 개발환경이다. 본 논문에서는 가상 객체들 간의 삼각형 충돌 검사 부분을 CUDA 를 이용해 병렬적으로 구현하였다. 삼각형 충돌 검사는 실시간 충돌 검사 시 주요 병목현상을 일으키는 부분이다. 하지만 CPU 와 GPU 간의 데이터 전송 지연 문제 때문에 기존의 오브젝트 스페이스상의 GPU 기반의 충돌 검사 방법으로는 이 병목현상을 해결하기 어려웠다. 그러나 데이터 전송 지연 문제를 크게 완화시킨 CUDA 를 이용해 데이터 전송에 소모되는 비용을 줄이고 또한 삼각형 충돌 검사를 병렬적으로 수행함으로써 가상 객체를 형성하는 삼각형 집합들의 충돌검사 알고리즘의 성능을 크게 향상시킬 수 있었다.

  • PDF

다중코어 시스템의 메쉬구조 상호연결망이 성능에 미치는 영향 (The Effect of Mesh Interconnection Network on the Performance of Manycore System.)

  • 김한이;김영환;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.116-119
    • /
    • 2011
  • 다중코어(Many-Core) 시스템은 많은 코어들이 상호연결망을 통해서 연결되어있는 시스템으로, 단일코어나 멀티코어 시스템에 비해 보다 많은 병렬 컴퓨팅 자원을 지원한다. Amdahl 의 법칙에 의하면 병렬화되어 처리하는 부분은 이론적으로 프로세서의 개수에 비례하게 가속화 될 수 있지만, 상호연결망에서의 전송 지연을 비롯한 많은 요인에 의해서 성능의 가속화가 저해된다. 특히 캐시 일관성 규약(Cache Coherence Protocol)을 지원하는 대부분의 다중코어 시스템에서는 병렬화를 함에 있어서 캐시 미스로 인해 발생하는 데이터의 전송 지연이 성능에 많은 영향을 미칠 수 있다. 따라서 효과적인 병렬 프로그램을 위해서는 캐시 구조에 대한 이해를 바탕으로 상호연결망에 대한 연구가 필요하다. 본 논문에서는 메쉬(Mesh) 구조의 64 코어 다중코어 시스템인 TilePro64 를 이용하여 상호연결망의 데이터 전송 지연에 따른 프로그램 성능의 민감도를 측정하였다. 결과적으로 코어간 거리(Hop)가 늘어날수록 작업의 수행시간이 평균적으로 4.27%씩 선형적으로 증가하는 관계가 있는 것으로 나타났다.

PCI 기반 병렬 퍼지추론 시스템과 설계 및 구현 (Design and Implementation of a PCI-based Parallel Fuzzy Inference System)

  • 이병권;이상구
    • 한국지능시스템학회논문지
    • /
    • 제11권8호
    • /
    • pp.764-770
    • /
    • 2001
  • 본 논문에서는 대용량의 퍼지 데이터를 고속으로 전송 및 추론하기 위해 새로운 PCI 버스 기반 병렬 퍼지 시스템을 제안한다. 많은 퍼지 데이터의 고속전송을 위해 PCI 9050 인터페이스를 사용하고, 병렬 퍼지 추론 시스템을 위한 병렬 퍼지 모듈들을 FPGA로 설계하여 PCI 타겟 코어로서 병렬로 동작하게 한다. 여기서 소속함수들의 각 요소와 전건부 또는 후건부부분의 병렬화을 고려하여 제안된 시스템을 VHDL을 사용하여 설계 및 구현하였다. 제안된 시스템은 실시간에 고속의 퍼지추론을 요하는 시스템 또는 대용량 인공위성 영상 데이터의 패턴 인식 등과 같이 다수의 전건부, 후건부의 변수를 갖는 시스템에 활용될 수 있다.

  • PDF