• 제목/요약/키워드: Parallel Implementation

검색결과 883건 처리시간 0.026초

100Gb/s급 광통신시스템을 위한 3-병렬 Reed-Solomon 기반 FEC 구조 설계 (Three-Parallel Reed-Solomon based Forward Error Correction Architecture for 100Gb/s Optical Communications)

  • 최창석;이한호
    • 대한전자공학회논문지SD
    • /
    • 제46권11호
    • /
    • pp.48-55
    • /
    • 2009
  • 본 논문에서는 차세대 100-Gb/s급 광통신 시스템을 위한 3-병렬 Reed-Solomon (RS) 디코더 기반의 고속 Forward Error Correction (FEC) 구조를 제안한다. 제안된 16채널 RS기반 FEC 구조는 4개의 신드롬 계산 블록이 1개의 Key Equation Solver (KES) 블록을 공유하는 3-병렬 4채널 RS 기반 FEC 구조 4개로 구성되어 있다. 제안하는 100-Gb/s RS 기반 FEC는 1.2V의 공급전압의 $0.13{\mu}m$ CMOS 공정을 이용하여 구현하였다. 구현 결과 제안된 RS기반 FEC 구조는 300MHz의 동작 주파수에서 115-Gb/s 의 데이터 처리율을 가지며, 기존의 RS 기반 FEC 구조에 비해 높은 데이터 처리율과 낮은 하드웨어 복잡도를 보여주고 있다.

긴 극 부호를 위한 저 면적 부분 병렬 극 부호 부호기 설계 (Area-Efficient Semi-Parallel Encoding Structure for Long Polar Codes)

  • 신예린;최소연;유호영
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1288-1294
    • /
    • 2019
  • Polar code의 채널용량 달성 특성은 polar code를 각광 받는 오류 정정 부호로 만들었다. 하지만 충분한 오류 정정 성능은 부호의 길이가 길어졌을 때 달성되는 점근적 속성을 보인다. 따라서 입력 데이터가 길어지는 경우에 대한 초대규모 집적회로 구현을 실현하기 위하여 효율적인 구조가 필요하게 되었다. 기존의 polar code 부호기 구조 중 가장 기본적인 완전 병렬 구조는 직관적이고 구현이 쉽지만 긴 polar code에 높은 하드웨어 복잡성을 보이므로 부적합하다. 그리고 이를 보완하여 제안된 부분 병렬 구조는 하드웨어 면적 측면에서 큰 성과를 얻었으나 그 방식이 일반화되어 있지 않아 설계자에 따라 구조에 변동이 발생할 수 있다. 본 논문에서는 이를 개선하고자 비트 차원의 치환을 위해 제안된 회로 설계법을 polar code에 적용하는 하드웨어 설계법을 제안한다. 제안하는 방법을 polar code의 부호기에 적용함으로써 완전 병렬 부호기만큼 직관적인 구조를 가짐과 동시에 일반화된 polar code 부분 병렬 부호기를 설계할 수 있다.

Design of 32 bit Parallel Processor Core for High Energy Efficiency using Instruction-Levels Dynamic Voltage Scaling Technique

  • Yang, Yil-Suk;Roh, Tae-Moon;Yeo, Soon-Il;Kwon, Woo-H.;Kim, Jong-Dae
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제9권1호
    • /
    • pp.1-7
    • /
    • 2009
  • This paper describes design of high energy efficiency 32 bit parallel processor core using instruction-levels data gating and dynamic voltage scaling (DVS) techniques. We present instruction-levels data gating technique. We can control activation and switching activity of the function units in the proposed data technique. We present instruction-levels DVS technique without using DC-DC converter and voltage scheduler controlled by the operation system. We can control powers of the function units in the proposed DVS technique. The proposed instruction-levels DVS technique has the simple architecture than complicated DVS which is DC-DC converter and voltage scheduler controlled by the operation system and a hardware implementation is very easy. But, the energy efficiency of the proposed instruction-levels DVS technique having dual-power supply is similar to the complicated DVS which is DC-DC converter and voltage scheduler controlled by the operation system. We simulate the circuit simulation for running test program using Spectra. We selected reduced power supply to 0.667 times of the supplied power supply. The energy efficiency of the proposed 32 bit parallel processor core using instruction-levels data gating and DVS techniques can improve about 88.4% than that of the 32 bit parallel processor core without using those. The designed high energy efficiency 32 bit parallel processor core can utilize as the coprocessor processing massive data at high speed.

협동 병렬 X-Match 데이타 압축 알고리즘 (The Cooperative Parallel X-Match Data Compression Algorithm)

  • 윤상균
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권10호
    • /
    • pp.586-594
    • /
    • 2003
  • X-Match 알고리즘은 비교적 간단하여 하드웨어로 구현하는 데에 적합한 무손실 압축 알고리즘이다. X-Match 알고리즘은 사이클 당 32비트의 압축이 가능하므로 고속 압축에 적합하다. 그렇지만 버스 폭이 증가됨에 따라서 이에 맞추어서 압축 단위를 증가시킬 필요가 있게 되었다. 본 논문에서는 X-Match 알고리즘을 병렬로 수행하여 압축 속도를 2배 향상시키고 X-Match 알고리즘 거의 비슷한 압축률을 제공하는 협동 병렬 X-Match 알고리즘, 즉 X-MatchCP 알고리즘을 제안한다. 기존의 병렬 X-Match 알고리즘이 X-Match 알고리즘을 병렬로 수행할 매에 각자의 사전을 검색하는 데 비해서 X-MatchCP 알고리즘에서는 X-Match 알고리즘이 병렬로 수행되지만 전체 사전을 검색하여 매칭빈도를 높이도록 하였고 run-length 부호화도 두 워드에 대해서 한꺼번에 하는 방식으로 서로 협동하면서 동작한다 메모리 데이타와 파일 자료를 사용한 시뮬레이션 결과 X-MatchCP 알고리즘은 같은 사전 크기의 X-Match 알고리즘과 거의 비슷한 압축률을 보였다. 그리고 X-MatchCP 알고리즘의 하드웨어 구현을 위한 전체적인 구조 설계를 Verilog 언어를 사용하여 수행하였다.

다중 코어 및 single instruction multiple data 기술을 이용한 심층 신경망 속도 향상 (Improving the speed of deep neural networks using the multi-core and single instruction multiple data technology)

  • 정익주;김승희
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.425-435
    • /
    • 2017
  • 본 논문에서는 다중 코어 ARM 프로세서의 NEON SIMD(Single Instruction Multiple Data) 병렬 명령어 및 다중 코어 병렬화를 통하여 심층 신경망의 피드포워드 네트워크 연산을 최적화하는 방안을 제시하였다. SIMD 병렬 명령어를 이용한 최적화의 경우에는 단계 별 최적화 과정에서의 속도 향상과 정밀도를 제시 하였다. 단일 코어 상에서 SIMD 병렬 명령어를 이용하여 구현된 결과는 C 컴파일러를 이용한 구현보다 2.6배의 속도 향상을 얻을 수 있었다. 또한 단일 코어 상에서 최적화된 코드를 다중 코어로 병렬화함으로써 5.7배~7.7배의 속도 향상을 얻을 수 있었다. 이상의 결과를 통하여 이동형 단말기에서도 연산량이 많은 심층 신경망 기술을 활용할 수 있는 가능성을 확인하였다.

OpenCL을 이용한 JPEG2000 4K 초고화질 영상처리의 병렬고속화 구현 (A Parallel Implementation of JPEG2000 4K Ultra High Definition Image using OpenCL)

  • 박대승;김정길
    • 한국위성정보통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.1-5
    • /
    • 2015
  • 멀티미디어 기술의 급속한 발전과 사용자의 대형 화면에 대한 선호도가 높아지는 가운데 새로운 영상 압축 기술인 HEVC(High Efficiency Video Coding) 고화질 영상 압축 표준을 탄생시켰으며, 그 결과 기존의 HD급 영상보다 4배 이상, 16배까지 선명한 초고화질 UHD(Ultra High Definition) 영상 서비스가 새롭게 주목받고 있다. 또한 JPEG 2000 압축도 기존 처리되던 픽셀 이미지를 넘어 초고화질 해상도 이미지(4K : $3,840{\times}2,160$ 또는 8K : $7680{\times}4320$)를 처리 지원을 하고 있다. 따라서 초고화질 이미지의 획득 및 저장을 위해서는 고속의 처리 기술이 필요하다. 이에 본 논문은 초고화질 해상도 이미지의 고속 처리를 위한 병렬처리 기술에 대한 연구를 위하여, JPEG 2000의 처리 과정을 살펴보고 전처리 단계인 색공간 변환 알고리즘 적용을 위하여 GPU환경에서 병렬 컴퓨팅을 통해 처리속도를 향상시키는 방법을 제안한다. 병렬화한 알고리즘의 구현은 OpenCL(Open Computing Language)을 이용하였다. 실험 결과 사용자 정의 쓰레드 기반 고속 처리와 비교하여 초고화질 해상도 이미지(UHD 4K : $3,840{\times}2,160$)를 기준으로 최대 5배의 성능 향상의 결과를 보여주었다.

시스템 복잡도를 개선한 $GF(2^m)$ 상의 병렬 $AB^2+C$ 연산기 설계 (Low System Complexity Bit-Parallel Architecture for Computing $AB^2+C$ in a Class of Finite Fields $GF(2^m)$)

  • 변기령;김흥수
    • 전자공학회논문지SC
    • /
    • 제40권6호
    • /
    • pp.24-30
    • /
    • 2003
  • 본 논문에서는 m차 기약 AOP를 적용하여 시스템 복잡도를 개선한 GF(2/sup m/)상의 새로운 AB²+C 연산기법과 그 하드웨어 구현회로를 제안하였다. 제안된 회로는 병렬 입출력 구조를 가지며, CS, PP 및 MS를 모듈로 하여 구성되며 이들은 각각 AND와 XOR 게이트의 규칙적인 배열구조를 갖는다. 제안된 회로의 시스템 복잡도는 (m+1)²개의 2-입력 AND게이트와 (m+1)(m+2)개의 2-입력 XOR게이트의 회로복잡도와 연산에 소요되는 최대 지연시간은 T/sub A/sup +/(1+「log₂/sup m/」)T/sub x/ 이다. 제안된 연산기의 시스템 복잡도와 구성상의 특징을 타 연산기를 표로 비교하였고, 그 결과 상대적으로 우수함을 보였다. 또한, 단순하면서도 정규화된 소자 및 결선의 구조는 VLSI 구현에 적합하다.

병렬 프로그램 성능가시화를 위한 확장성 있는 프레임워크 설계 및 구현 (Design and Implementation of a Scalable Framework for Parallel Program Performance Visualization)

  • 문상수;문영식;김정선
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권2호
    • /
    • pp.109-120
    • /
    • 2001
  • 본 논문에서는 최적의 성능을 갖는 병렬프로그램 개발을 위한 도구로 이식성, 확장성, 효율성을 고려한 성능가시화 프레임워크의 설계 및 구현을 제시한다. 본 프레임워크는 독립적으로 개발 가능한 인스트루멘테이션 층, 인터페이스 층 그리고 가시화 층으로 이루어진 계층구조를 갖도록 설계되었다. 인스트루멘테이션 층은 사건(event) 포획을 위한 라이브러리인 ECL(Event Capture Library)로 구성되며, 인터페이스 층은 인스트루멘테이션 층과 가시화 층 간에 문제중심의 인터페이스를 제공하기 위해 개발된 EDL/JPAL(Event Description Language/Jave Problem-oriented trace Access Library)로 구성되었다. 또한 가시화 층은 뷰와 필터의 추가, 수정 및 custom 뷰 그룹의 구성이 용이하도록 plug and play 스타일로 설계되었다. 이렇게 구현된 성능 가시화 프레임워크는 독립된 도구로서 뿐만 아니라 프로그래밍, 디버깅 그리고 성능분석이 통합된 병렬프로그램 개발환경의 핵심도구로 사용될 수 있다.

  • PDF

타입 II 최적 정규기저를 갖는 유한체의 새로운 병렬곱셈 연산기 (A New Parallel Multiplier for Type II Optimal Normal Basis)

  • 김창한;장상운;임종인;지성연
    • 정보보호학회논문지
    • /
    • 제16권4호
    • /
    • pp.83-89
    • /
    • 2006
  • 유한체의 H/W 구현에는 정규기저를 사용하는 것이 효과적이며, 특히 최적 정규기저를 갖는 유한체의 H/W구현이 가장 효율적이다. 타입 I 최적 정규기저를 갖는 유한체 GF($2^m$)은 m이 짝수이므로 암호학적으로 응용되지 못하는 단점이 있다. 그러나 타입 II 최적 정규기저를 갖는 유한체의 경우는 NIST에서 제안한 ECDSA의 권장 커브 중 GF($2^{233}$)위에 주어진 것이 있으며, 이 유한체가 타입 II 최적 정규기저를 갖는 등 여러 응용분야에 적용 되는바 효율적인 구현에 관한 연구가 활발하게 진행되고 있다. 본 논문에서는 타입 II 최적 정규기저를 갖는 유한체 GF($2^m$)의 연산을 정규기저로 표현하여 확대체 GF($2^{2m}$)의 원소로 나타내어 연산을 하는 새로운 병렬곱셈 연산기를 제안하였으며, 제안한 연산기는 기존의 가장 효율적인 결과들과 동일한 공간 및 시간 복잡도를 갖는 효율적인 연산기이다.

Virtual Scheduling Algorithm의 VLSI 구현 (VLSI-Implementation of the Virtual Scheduling Algorithm)

  • 전만영;박홍식
    • 한국통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.144-154
    • /
    • 1996
  • Proposed numerous algorithms for the policing function have mainly focused on their performances. Besides their performance evaluation, however, the VLSI-implementation of these algorithms is worth consideration as well. Although, no algorithms for the policing function have been standardized up to now, ITU-T I.371 suggests two examples of algorithms, the Virtual Scheduling Algorithm (VSA) and the Continuous State Leaky Bucket algorithm. In this paper, we suggest the architecture of a policing device implementing the VSA among various algorithms for the peak cell rate policing and discuss some issues on the implementation. We also present how to select the policing modes of the two devices used to realize various policing schemes and show the experimental results obtained under four different peak cell rate values to confirm that the device performs the policing function satisfactorily. We exploit the priority encoder to run the algorithm in parallel instead of sequentially, which reduces the operation time to a great extent.

  • PDF