• 제목/요약/키워드: 병렬처리 아키텍처

검색결과 66건 처리시간 0.025초

멀티프로세서용 임베디드 시스템을 위한 UML 기반 소프트웨어 모델의 분할 기법 (A Partition Technique of UML-based Software Models for Multi-Processor Embedded Systems)

  • 김종필;홍장의
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.87-98
    • /
    • 2008
  • 임베디드 시스템의 하드웨어 구성요소들에 대한 성능 고도화가 요구됨에 따라 이에 탑재될 소프트웨어의 개발 방법도 영향을 받고 있다. 특히 MPSoC와 같은 고가의 하드웨어 아키텍처에서는 효율적인 자원의 사용 및 성능의 향상을 위해 소프트웨어 측면에서의 고려가 필수적으로 요구된다. 따라서 본 연구에서는 임베디드 소프트웨어 개발과정에서 멀티프로세서 기반의 하드웨어 아키텍처를 고려하는 소프트웨어 태스크의 분할기법을 제시한다. 제시하는 기법은 UML 기반의 소프트웨어 모델을 CBCFG (Constraints-Based Control Flow Graph)로 변환하고, 이를 병렬성과 데이터 의존성을 고려한 소프트웨어 컴포넌트로 분할하는 기법이다. 이러한 기법은 임베디드 소프트웨어의 플랫폼 의존적인 모델 개발과 태스크 성능 예측 등을 위한 자료로 활용할 수 있다.

고성능 H.264/AVC 디블로킹 필터를 위한 4-병렬 스케줄링 아키텍처 (A 4-parallel Scheduling Architecture for High-performance H.264/AVC Deblocking Filter)

  • 고병수;공진흥
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.63-72
    • /
    • 2012
  • 본 연구에서는 Quad FHD의 고해상도 동영상을 실시간 처리하는 고성능 H.264/AVC 디블로킹필터를 설계하였다. 연산처리 성능을 향상시키기 위해 라인에지필터 16개를 4개의 블록에지필터로 병렬 설계하였으며, 내부버퍼 크기와 연산 사이클을 줄이기 위해 H.264/AVC 디블로킹 필터 순서를 4단 병렬 지그재그 스캔 순서로 스케줄링하였다. 그리고 블록에지필터 연산 간 1사이클의 지연시간을 두어 데이터 충돌을 방지하고, 블록에지필터 간 내부버퍼를 인터리빙 버퍼로 구현하여 내부버퍼 크기를 줄였다. 0.18um 공정에서 시뮬레이션한 결과, 최대 동작주파수가 90MHz이며, 게이트 수는 140.16 Kgates이다. 제안하는 H.264/AVC 디블로킹필터는 동작주파수 90MHz에서 Quad FHD급 동영상($3840{\times}2160$)을 초당 113.17프레임으로 실시간 처리가 가능한 결과이다.

BioFET 시뮬레이션을 위한 CUDA 기반 병렬 Bi-CG 행렬 해법 (CUDA-based Parallel Bi-Conjugate Gradient Matrix Solver for BioFET Simulation)

  • 박태정;우준명;김창헌
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.90-100
    • /
    • 2011
  • 본 연구에서는 연산 부하가 매우 큰 Bio-FET 시뮬레이션을 위해 낮은 비용으로 대규모 병렬처리 환경 구축이 가능한 최신 그래픽 프로세서(GPU)를 이용해서 선형 방정식 해법을 수행하기 위한 병렬 Bi-CG(Bi-Conjugate Gradient) 방식을 제안한다. 제안하는 병렬 방식에서는 반도체 소자 시뮬레이션, 전산유체역학(CFD), 열전달 시뮬레이션 등을 포함한 다양한 분야에서 많은 연산량이 집중되어 전체 시뮬레이션에 필요한 시간을 증가시키는 포아송(Poisson) 방정식의 해를 병렬 방식으로 구한다. 그 결과, 이 논문의 테스트에서 사용된 FDM 3차원 문제 공간에서 단일 CPU 대비 연산 속도가 최대 30 배 이상 증가했다. 실제 구현은 NVIDIA의 태슬라 아키텍처(Tesla Architecture) 기반 GPU에서 범용 목적으로 병렬 프로그래밍이 가능한 NVIDIA사의 CUDA(Compute Unified Device Architecture) 환경에서 수행되었으며 기존 연구가 주로 32 비트 정밀도(single floating point) 실수 범위에서 수행된 것과는 달리 본 연구는 64 비트 정밀도(double floating point) 실수 범위로 수행되어 Bi-CG 해법의 수렴성을 개선했다. 특히, CUDA는 비교적 코딩이 쉬운 반면, 최적화가 어려운 특성이 있어 본 논문에서는 제안하는 Bi-CG 해법에서의 최적화 방향도 논의한다.

Berlekamp-Massey 알고리즘을 이용한 소형 Reed-Solomon 디코우더의 아키텍쳐 설계 (Architecture design of small Reed-Solomon decoder by Berlekamp-Massey algorithm)

  • 전우형;송낙운
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.306-312
    • /
    • 2000
  • 본 논문에서는 소형 RS(Reed-Solomon) 디코우더의 효율적인 하드웨어 아키텍처를 제안하였다. 전체 아키텍쳐는 3단 파이프라인 구조를 택하였으며, 디코우딩 연산시, 에러위치다항식은 BMA(Berlekamp-Massey algortihm)에 의한 fast-iteration 방식으로 구하였으며, 계산의 복잡성이 요구도는 신드롬연산 부분은 ROM 테이블을 이용해서 병렬로 수행하고, 에러위치 다항식을 근을 구하는 부분은 Chein search 알고리즘을 응용한 방법을 ROM을 채택하여 계산하였다. 제안된 디코우더로 3심볼 랜덤에러정정을 수행하며, 시스템클록 25MHz를 사용하여 124Mbps의 디코우딩 데이터율을 가짐을 확인할 수 있었다.

  • PDF

CUDA를 이용한 Rasterization 알고리즘의 코어 매핑에 따른 성능 및 에너지 효율 분석 (Analysis of Performance and Energy Efficiency of Core Mapping for Rasterization Algorithm using CUDA)

  • 박민호;김종면
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.140-143
    • /
    • 2013
  • 본 논문에서는 데이터 병렬성이 뛰어난 벡터 기반의 Rasterization 알고리즘을 CUDA를 이용하여 코어 매핑에 따른 성능 및 에너지 효율을 분석해 보았다. 블록 사이즈를 동일하게 맞춘 후 블록의 차원을 변경 하는 방법과 블록 사이즈를 변경하는 방법을 사용하여 실험하였다. 모의실험결과, 블록 사이즈가 동일할 때는 오차 범위 내로 동일한 성능과 에너지 효율을 보였다. 아키텍처마다 모든 자원을 사용할수 있는 이론적인 블록 및 스레드 구조가 존재하지만 메모리 접근에 대한 최적화를 이루어 내지 못한다면 Amdahl's law에 의해 성능 향상에 한계가 있다는 것을 확인하였다.

멀티코어 아키텍처에서 안드로이드 부팅속도 향상 방법 (An Improving Method of Android Boot Time in Multi-core Architecture)

  • 최진용;이재흥;김형규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.75-78
    • /
    • 2013
  • 본 연구에서는 멀티코어 기반의 안드로이드 부팅 최적화 방법을 제안하고 있다. 안드로이드 부팅 구간 중 Zygote란 프로세스 초기화 과정 시 가장 많은 연산을 하고 있었으며 Zygote 내부의 4가지 기능 중 preload구간에서 병렬기법을 적용하였다. preload는 어플리케이션의 구동에 필요한 클래스들과 리소스를 순차적으로 가져오는 함수호출 구조로 이 함수호출 구조를 다른 프로세스로 분리시켜 독립적인 연산을 수행하였다. 제안 방법을 S5PV310 듀얼코어와 Exynos4412 쿼드코어에 적용시켰고 각각 14%와 12%의 성능향상 결과를 보였다.

고속의 클러스터 추정을 위한 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Many-Core Processor for High-Speed Cluster Estimation)

  • 서준상;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.1-12
    • /
    • 2014
  • 본 논문에서는 단일 명령어, 다중 데이터 처리 기반의 매니코어 프로세서를 이용하여 높은 계산량이 요구되는 차감 클러스터링 알고리즘을 병렬 구현하고 성능을 향상시킨다. 또한 차감 클러스터링 알고리즘을 위한 최적의 매니코어 프로서서 구조를 선택하기 위해 다섯 가지의 프로세싱 엘리먼트 (processing element, PE) 구조 (PEs=16, 64, 256, 1,024, 4,096)를 모델링하고, 각 PE구조에 대해 실행시간 및 에너지 효율을 측정한다. 두 가지 의료 영상 및 각 영상의 세 가지 해상도(($128{\times}128$, $256{\times}256$, $512{\times}512$)를 이용하여 모의 실험한 결과, 모든 경우에 대해 PEs=4,096구조에서 최고의 성능 및 에너지 효율을 보였다.

확장된 xUML을 사용한 MDA 기반 이종 임베디드 소프트웨어 컴포넌트 모델링에 관한 연구 (A Study on Modeling Heterogeneous Embedded S/W Components based on Model Driven Architecture with Extended xUML)

  • 김우열;김영철
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.83-88
    • /
    • 2007
  • 본 논문에서는 MDA(Model Driven Architecture) 기반의 임베디드 소프트웨어 컴포넌트 개발 방법을 소개한다. 이 방법은 이종의 임베디드 시스템에서 소프트웨어의 재사용성에 관한 문제점을 해결하고자 MDA기법을 임베디드 소프트웨어 개발에 적응한 것이다. 제안한 방법을 통해 하나의 메타 모델(Target Independent Model)을 각각의 다른 도메인에 맞는 타겟 종속적 모델(Target Specific Model)들을 만들고, 그에 따른 소스 코드(Target Dependent Code)를 개발하는 것이다. 이때 기 개발된 메타모델은 이종의 임베디드 시스템 개발에 재사용하려는 것이 목적이다. 우리는 이 방법에 따른 도구에 기존 xUML의 동적 모델링에서 표현되지 못하는 부분(병렬성, 실시간 등)을 보완하기 위해 확장하여 채택하였다. 확장된 xUML 노테이션을 기반으로 구현한 모델링 도구를 소개한다. 이는 임베디드 또는 병렬/실시간 소프트웨어의 모델링이 가능하다. 제안한 방법의 적응사례로서 이종 임베디드 시스템의 모델링을 통한 필드 개발을 보여준다.

병렬 Shifted Sort 알고리즘의 Warp 단위 CUDA 구현 최적화 (Optimization of Warp-wide CUDA Implementation for Parallel Shifted Sort Algorithm)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권4호
    • /
    • pp.739-745
    • /
    • 2017
  • 본 논문에서는 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위(warp) 내에서 shifted sort 기반 k개 최근접 이웃 검색 기법을 구현하는 방법을 논의하고 일반적으로 동일한 목적으로 널리 사용되는 GPU 기반 kd-tree 및 CPU 기반 ANN 라이브러리와 비교한 결과를 제시한다. 또한 많은 애플리케이션에서 k가 비교적 작은 값이 필요한 경우가 많다는 사실을 고려해서 k가 warp 내부에서 직접 처리 가능한 2, 4, 8, 16개일 때 최적화에 집중한다. 구현 세부에서는 사용한 CUB 공개 라이브러리의 루프 내 메모리 관리 방법, GPU 하드웨어 직접 명령 적용 방법 등의 최적화 방법을 논의한다. 실험 결과, 제안하는 방법은 기존의 GPU 기반 유사 방법에 비해 데이터 지점과 질의 지점의 개수가 각각 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이러한 경향은 처리해야 할 데이터의 크기가 커지면 더욱 더 커지는 것으로 판단된다.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.