• 제목/요약/키워드: data level parallelism

검색결과 47건 처리시간 0.024초

와이드 이슈 프로세서를 위한 스트라이드 값 예측기의 모험적 갱신 (Sepculative Updates of a Stride Value Predictor in Wide-Issue Processors)

  • 전병찬;이상정
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권11호
    • /
    • pp.601-612
    • /
    • 2001
  • 슈퍼스칼라 프로세서에서 값 예측(value prediction)은 한 명령의 결과를 미리 예측하여 명령들 간의 데이터 종속관계를 극복하고 실행함으로써 명령어 수준 병렬성(Instruction Level Parallesim, ILP)을 이용하는 기법이다. 값 예측기(value predictor)는 명령어 페치 시에 예측 테이블을 참조(lookup)하여 값을 예측하고, 명령의 실행 후 판명된 예측 결과에 따라 테이블을 갱신(update)하여 이 후의 참조를 대비한다. 그러나, 최근의 값 예측기는 프로세서의 명령 페치 및 이슈율이 커짐에 따라 예측 테이블이 갱신되기 전에 다시 같은 명령이 페치되어 갱신되지 못한 낡은 값(stale value)으로 예측되는 경우가 빈번히 발생하여 예측기의 성능이 저하되는 경향이 있다. 본 논문에서는 이러한 성능저하를 줄이기 위해 명령의 결과가 나올 때가지 기다리지 않고 테이블 값을 모험적으로 갱신(speculative update)하는 스트라이트 값 예측기(stride value predictor)를 제안한다. 제안된 방식의 타당성을 검증하기 위해 SimpleScalar 시뮬레이터 상에 제안된 예측기를 구현하여 SPECint95 벤치마크를 시뮬레이션하고 제안된 모험적 갱신의 스트라이드 예측기가 기존의 스트라이드 예측기 보다 성능이 향상됨을 보인다.

  • PDF

복잡도 기반 적응적 샘플 오프셋 병렬화 (Complexity-based Sample Adaptive Offset Parallelism)

  • 유은경;조현호;서정한;심동규;김두현;송준호
    • 방송공학회논문지
    • /
    • 제17권3호
    • /
    • pp.503-518
    • /
    • 2012
  • 본 논문은 High Efficiency Video Coding (HEVC)의 인-루프 필터 기술인 Sample Adaptive Offset (SAO)에 대하여 복잡도 분석기반의 병렬화 방법을 제안한다. HEVC의 SAO는 쿼드트리 기반으로 영상을 다수의 SAO영역으로 분할하고, 각 영역 단위로 에러 보정을 위한 오프셋 값을 전송함으로써 복호화된 화소의 에러를 보정한다. HEVC의 SAO는 데이터 레벨의 병렬화를 통하여 고속화할 수 있는데, SAO영역 단위의 데이터 레벨 병렬화는 영역의 크기가 일정하지 않아 멀티 코어를 사용한 병렬화시 작업량 불균형(Workload imbalance)이 발생한다. 또한, SAO는 영역 단위로 필터링 적용 여부가 결정되므로 균둥하게 SAO영역을 각 코어에 할당하더라도, 작업량 불균형이 발생할 수 있다. 본 논문에서는 SAO영역의 최소 단위인 Largest Coding Unit (LCU)를 SAO 수행의 기본단위로 하여, 각 단위에서의 SAO 파라미터 정보를 이용하여 복잡도를 미리 예측 하였다. 예측된 복잡도를 기반으로 각 코어에 균일하게 작업량이 할당될 수 있도록 영역을 코어에 적응적으로 할당하여 병렬화를 수행한 결과 순차 수행 기반 SAO에 비하여 2.38배, 영역 균등 SAO 병렬화 대비 21% 속도 향상되었다.

모바일 초음파 영상신호의 빔포밍 기법을 위한 최적의 매니코어 프로세서 구현 (Implementation of an Optimal Many-core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.119-128
    • /
    • 2011
  • 본 논문에서는 모바일 초음파(mobile ultrasound) 영상신호의 빔포밍 알고리즘에서 요구되는 고성능 및 저전력을 만족시키는 매니코어 프로세서에 대한 디자인 공간 탐색 방법을 소개한다. 매니코어 프로세서의 디자인 공간 탐색을 위해 매니코어의 각 프로세싱 엘리먼트(Processing Element, PE)당 초음파 영상신호 데이터의 수를 변화시키는 실험을 통해 실행시간, 에너지 효율 및 시스템 면적 효율을 측정하고, 측정된 결과를 바탕으로 최적의 매니코어 프로세서 구조를 선택하였다. 모의실험 결과, PE 개수가 4096일 때 에너지 효율이 가장 높았으며, PE 개수가 1024일 때 가장 높은 시스템 면적 효율을 보였다. 또한, PE 개수가 4096인 매니코어 아키텍처는 초음파 영상장치에 가장 많이 사용되는 TI DSP C6416보다 각각 에너지 효율에서 46배, 시스템 면적 효율에서 10배의 향상을 보였다.

분산된 VLIW 구조에서의 최대 전력 최소화 방법 (Peak Power Minimization for Clustered VLIW Architectures)

  • 서재원;김태환;정기석
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권5_6호
    • /
    • pp.258-264
    • /
    • 2003
  • VLIW 구조는 다량의 데이터를 처리하는 멀티미디어 애플리케이션에 매우 적합한 구조로서, 이 같은 종류의 애플리케이션에 대해 높은 수준의 병렬 처리를 가능케 한다. 이러한 병렬성을 더욱 증대 시키기 위하여 시스템을 확장하는 경우에 있어, 분산된 VLIW 구조는 그렇지 않은 구조에 비해 큰 강점을 갖는다. 하지만 여러 개의 분산된 클러스터를 하나의 구조 속에 포함하는 것은 필연적으로 적지 않은 양의 하드웨어를 요구하고, 이로 말미암아 전체 시스템에서 소모되는 전력 문제가 중요한 이슈로 대두된다. 본 논문에서는 분산된 VLIW 구조에서 전체 시스템의 성능 제한 조건을 만족시키는 동시에 최대 전력 소모량을 줄이는 효과적인 알고리즘을 제시한다. 일련의 실험을 통해 제시된 알고리즘이 최대 30.7%의 최대 전력 소모 감소 효과를 얻을 수 있음이 확인되었다.

SVLIW 프로세서와 VLIW 프로세서의 명령어 캐싱에 따른 성능 분석 (Performance Analysis of Caching Instructions on SVLIW Processor and VLIW Processor)

  • 지승현;박노광;김석일
    • 전기전자학회논문지
    • /
    • 제1권1호
    • /
    • pp.101-110
    • /
    • 1997
  • 실시간에 VLIW 명령어를 스케줄링하는 SVLIW 프로세서 구조는 실행 중 LNOP(긴 NOP 명령어)를 삽입하여 자원 충돌이나 자료 종속 문제를 스스로 해결할 수 있다. 따라서 SVLIW 프로세서에서는 메모리나 캐시에 적재되는 목적 코드로부터 LNOP 명령어를 제거할 수 있다. 그러므로 SVLIW 프로세서에서는 같은 크기의 캐시를 가진 VLIW 프로세서에 비하여 프로그램의 실행 도중에 발생하는 캐시 미스의 발생 빈도가 적어진다. 캐시 미스가 적게 발생하면 결국 평균 메모리 참조 시간이 짧아지므로 프로그램을 수행하는데 걸리는 실행 사이클의 수가 적어지게 된다. 이러한 특징은 한편 명령어 파이프라인 단계를 늘림으로 인한 영향을 상쇄할 수 있기 때문에 전체적으로 성능을 향상시킬 수 있다. 본 논문에서는 두 가지 프로세서 구조에서 어떤 응용 프로그램을 수행할 때 소요되는 실행 사이클을 예측하는 모델을 확립하고 이를 비교하였다. 또한, 시뮬레이션 결과로부터 캐시 미스가 발생하였을 때 메모리를 참조하는데 걸리는 시간이 길어질수록 SVLIW 프로세서에서의 실행 사이클이 VLIW 프로세서의 경우에 비하여 짧아지는 것을 확인할 수 있었다.

  • PDF

소프트웨어 기반 실시간 HEVC 인코더 구현을 위한 병렬화 기법에 관한 연구 (Study of Parallelization Methods for Software based Real-time HEVC Encoder Implementation)

  • 안용주;황태진;이동규;김상민;오승준;심동규
    • 방송공학회논문지
    • /
    • 제18권6호
    • /
    • pp.835-849
    • /
    • 2013
  • ISO/IEC MPEG과 ITU-T VCEG이 공동으로 구성한 JCT-VC (Joint Collaborative Team on Video Coding)가 표준화를 진행한 HEVC (High Efficiency Video Coding)는 H.264/AVC 대비 약 2배 혹은 그 이상의 압축효율을 목표로 표준화가 시작되었다. 하지만, 계층적 구조를 갖는 가변크기 블록의 사용과 재귀적 부호화 구조에 따른 인코더의 복잡도 증가는 개선해야 할 문제점으로 지적되고 있다. HEVC 인코더의 복잡도를 감소시키기 위하여 다양한 고속화 알고리즘들이 제안되고 있으나, 고속화 알고리즘으로 얻을 수 있는 속도 향상만으로 HEVC 인코더의 실시간성을 확보하기에는 어려움이 있다. 본 논문에서는 현재 표준화가 완료된 HEVC 인코더의 실시간 구현을 위하여 SIMD 명령어를 이용한 데이터 수준 병렬화 기법, CPU 및 GPU를 이용한 멀티스레딩 기법과 같은 다양한 병렬화 기법을 소개한다. 또한, 이러한 병렬화 기법들을 HEVC 인코더에 적용하기 위해 적합한 연산 및 기능 모듈에 대하여 소개한다. 본 연구에서 제안한 방법을 HM (HEVC reference model) 10.0에 적용한 결과 $832{\times}480$ 영상의 경우 20~30fps의 부호화 속도를 나타냈으며, $1920{\times}1080$ 영상의 경우 5~10fps의 부호화 속도를 나타내었다.

다중스레드 모델의 스레드 코드를 안전한 자바 바이트코드로 변환하기 위한 번역기 설계 (Design of Translator for generating Secure Java Bytecode from Thread code of Multithreaded Models)

  • 김기태;유원희
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 춘계학술대회 논문집
    • /
    • pp.148-155
    • /
    • 2002
  • 다중스레드 모델은 데이터플로우 모델의 내부적인 병렬성, 비동기적 자필 가용성과 폰 노이만 모델의 실행 지역성을 결합하여 병렬처리 시스템의 성능을 향상시켰다. 이 모델은 프로그램의 실행을 위하여 컴파일러에 의해 생성된 스레드를 수행하며, 스레드의 생성 방법에 따라 자원 활용 빈도나 동기화 빈도와 같은 스레드의 질이 결정되는 특징이 있다. 하지만 다중스레드 모델은 실행 모델이 특정 플랫폼에 제한되는 단점을 가지고 있다. 이에 반해 자바는 플랫폼에 독립적인 특징을 가지고 있어 다중스레드 모델의 스레드 코드를 실행 단위인 자바 언어로 변환하면 다중스레드 모델의 특징을 여러 플랫폼에서 수정 없이 사용할 수 있게 된다. 자바는 원시 언어를 중간 언어 형태의 바이트코드로 변환하여 각 아키텍처에 맞게 설계된 자바 가상 머신이 설치된 시스템에서 자바 언어를 수행한다. 이러한 자바 언어의 바이트코드는 번역기의 중간 언어와 같은 역할을 수행하고, 이때 자바 가상 머신은 번역기의 후위부와 같은 역할을 한다. 스레드 코드에서 번역된 자바 바이트코드는 다양한 플랫폼에서 실행될 수 있다는 장점은 있지만 신뢰할 수 없다는 만점이 있다. 또한 자바 언어 자체의 문제에 의해 안전하지 못한 코드가 생성 될 수도 있다. 본 논문은 다중스레드 코드가 플랫폼에 독립적인 특성을 갖출 수 있도록 다중스레드 코드를 자바 가상 머신에서 실행 가능하도록 한다. 또한 번역시에 자바에서 발생할 수 있는 문제들을 고려하여 안전한 바이트코드를 생성한다. 즉, 다중스레드 모델의 스레드 코드를 플랫폼에 독립적이고 외부 공격으로부터 안전한 자바 바이트코드로 변환하는 번역기를 선계, 구현한다.구센타와 병원간에 임상정보와 유전체 분석정보의 공유가 필수적으로 발생하게 됨으로, 유전체 정보와 임상정보의 통합은 미래 의료환경에 필수기능이 될 것이다. 3) 각 생명공학 연구소에서 사용하는 첨단 분석 장비와 생명공학 정보시스템의 자동 연계가 필요하다. 현재 국내에는 전국적인 초고속정보망이 가동되어 웹을 기반으로 하는 생명정보의 공유는 기술적으로 문제가 될 수 없으나 임상정보의 유전체연구에 그리고 유전체연구정보의 임상활용은 다양한 문제를 내포하고 있다. 이에 영상을 포함한 환자정보의 유전체연구센터와 병원정보시스템과의 효율적인 연계통합 운영을 위해 국내에서는 초기 도입단계에 있는 국제적인 보건의료정보의 표준인 Health Level 7 (textural information 공유), DICOM (image 및 wave 공유), 관련 ISO표준, WHO의 ICD9/10 (질병분류), LOINC (검사 및 관련용어), SNOMED International (의학용어) 등을 활용하여야 한다.matrix. The prediction system gives about 50% of sensitivity and 98% of specificity, Based on the PID matrix, we develop a system providing several interaction information-finding services in the Internet. The system, named PreDIN (Prediction-oriented Database of Interaction Network) provides interacting domain finding

  • PDF