• 제목/요약/키워드: 연산지연

검색결과 451건 처리시간 0.024초

시스템 복잡도 개선을 위한 AOP 기반의 병렬 유한체 승산기 (Low System Complexity Parallel Multiplier for a Class of Finite Fields based on AOP)

  • 변기영;나기수;윤병희;최영희;한성일;김흥수
    • 한국통신학회논문지
    • /
    • 제29권3A호
    • /
    • pp.331-336
    • /
    • 2004
  • 본 논문에서는 보다 빠른 연산동작의 구현을 위해 시스템 복잡도를 개선한 새로운 GF(2$^{m}$ ) 승산기를 제안한다. m차 기약 AOP가 갖는 특성으로부터 승산 중 발생하는 모듈러 환원의 과정을 순환이동 특성으로 간략화 하였고, 이후 AND와 XOR 게이트들의 배열구조를 사용하여 승산을 이루도록 하였다. 본 논문에서 제안한 승산기는 m(m+1)개의 2-입력 AND게이트와 (m+1)$^2$개의 2-입력 XOR게이트만으로 구성되며 연산에 소요되는 지연시간은 Τ$_{A+}$〔lo $g_2$$^{m}$ 〕Τ$_{x}$ 이다. 제안된 승산기와 타 승산기를 비교하여 그 결과를 보였고, 비교 결과 회고구성 및 복잡도 개선에 우수한 특성을 가지며 VLSI 구현에 적합함을 확인하였다.다.

성상도 집합 그룹핑 기반의 적응형 병렬 및 반복적 QRDM 검출 알고리즘 (Adaptive Parallel and Iterative QRDM Detection Algorithms based on the Constellation Set Grouping)

  • 마나르모하이센;안홍선;장경희;구본태;백영석
    • 한국통신학회논문지
    • /
    • 제35권2A호
    • /
    • pp.112-120
    • /
    • 2010
  • 본 논문에서는 집합 그룹핑을 이용한 APQRDM (adaptive parallel QRDM) 알고리즘과 AIQRDM (adaptive iterative QRDM) 알고리즘을 제안한다. 제안된 검출 알고리즘은 집합 그룹핑을 이용하여 QRDM 알고리즘의 트리 검색 단계를 PDP (partial detection phases) 로 분할하여 수행한다. 기존 QRDM 알고리즘의 트리 검색 단계가 4개의 PDP로 나누어질 때, APQRDM 알고리즘은 기존 QRDM 알고리즘의 1/4 에 해당하는 검출 지연(latency) 을 가지며, AIQRDM 알고리즘은 기존 QRDM 알고리즘의 약 1/4에 해당하는 하드웨어 요구량을 가진다. 모의실험 결과는 $4{\times}4$ 시스템의 경우, APQRDM 알고리즘은 12dB의 Eb/N0에서 기존 QRDM 알고리즘의 약 43%에 해당하는 연산 복잡도를 가지며, AIQRDM 알고리즘은 0dB의 Eb/N0에서 기존 QRDM 알고리즘의 54%, AQRDM 알고리즘의 10%에 해당하는 연산 복잡도를 가짐을 보인다.

모바일 3차원 그래픽을 위한 기하변환 엔진 설계 (Design of Transformation Engine for Mobile 3D Graphics)

  • 김대경;이지명;이찬호
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.49-54
    • /
    • 2007
  • 최근 많은 디지털 콘텐츠들이 3차원 그래픽을 기반으로 제작됨에 따라 모바일 기기에 적용 가능한 저 전력 3차원 그래픽 하드웨어에 대한 관심이 증가하고 있다. 본 논문에서는 이러한 시대 흐름에 맞추어 모바일 기기에 적용 가능한 3차원 그래픽 기하변환 엔진을 설계하였다. 설계된 기하변환 엔진은 매핑 변환 유닛을 투영 변환 유닛에 통합하고 클리핑 유닛을 선별 유닛으로 대체하여 구조를 단순화하고 면적을 줄었다. 설계된 엔진은 IEEE-754 표준을 만족하는 32 bit 부동소수점 형식과 데이터 폭을 줄인 24 bit 부동소수점 형식의 연산을 수행할 수 있으며 이는 파라미터의 변환으로 선택할 수 있도록 하였다. 또한 파이프라인 방식을 설계에 적용하여 초기 지연을 제외하고는 매 사이클 입력되는 정점의 좌표 성분(x, y, z, w)을 연산하여 4 사이클 마다 하나의 변환된 정점 좌표 성분을 출력할 수 있도록 하여 동작의 속도 및 효율을 높였다. 설계된 기하변환 엔진은 FPGA를 이용한 시스템으로 구현되었으며 설계된 엔진을 통해 변환된 3차원 객체가 TFT-LCD에 정상적인 3차원 그래픽 영상을 출력하는 것을 통해 검증하였다.

다중필터 리프팅 방식을 이용한 고성능 라인기반 필터링 구조 (High-Performance Line-Based Filtering Architecture Using Multi-Filter Lifting Method)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제41권8호
    • /
    • pp.75-84
    • /
    • 2004
  • 본 논문에서는 Motion JPEG2000 등의 이산 웨이블릿 기반의 고속 영상처리를 위해서 리프팅 방식의 효율적인 H/W 구조를 제안하였다. 리프팅 내부연산의 반복성을 이용하여 알고리즘 레벨에서 구조적인 사상을 적용하고 데이터 스케줄링을 이용하여 최적화되고 간략화된 리프팅 기반의 필터링 셀의 구조를 제안한다. 이를 바탕으로 (9,7) 및 (5,3) 필터를 모두 수용할 수 있는 리프팅 커널의 구조를 구현하였다. 제안된 리프팅 커널은 일정 대기지연 시간 후에 연속적으로 데이터를 출력할 수 있는 간략화된 구조를 갖고 있다. 시간적인 순서로 입력되는 데이터에 대해서 일정한 출력을 발생할 수 있기 때문에 단순히 H/W를 추가하면 병렬적인 동작을 통해서 높은 출력율을 간단히 얻을 수 있다. 본 논문에서 제안된 리프팅 커널은 ASIC 및 FPGA 환경으로 모두 구현하였는데, ASIC으로는 삼성전자의 0.35㎛ CMOS 라이브러리를 이용하여 구현하였고 FPGA은 Altera사의 APEX을 타겟으로 하였다. ASIC의 경우 리프팅 연산을 위해 41,592개의 게이트 수와 라인 버퍼링을 위한 128Kbit의 메모리를 사용하였으며, FPGA의 경우 6,520개의 LE(Logic Element)와 128개의 ESB(Embedded System Block)을 사용하였다. 각각의 경우에 대해서 125MHz와 52MHz의 속도에서 안정적으로 동작할 수 있었다.

모듈화된 라운드 키 생성회로를 갖는 AES 암호 프로세서의 설계 (Design of AES Cryptographic Processor with Modular Round Key Generator)

  • 최병윤;박영수;전성익
    • 정보보호학회논문지
    • /
    • 제12권5호
    • /
    • pp.15-25
    • /
    • 2002
  • 본 논문에서는 AES Rijndael 블록 암호 알고리즘을 구현하는 고속 암호 프로세서를 설계하였다. 기존 Rijndael 알고리즘의 고속 동작을 제약하는 라운드 키 계산에 따른 성능 저하 문제를 제거하기 위해, 연산 라운드 구조를 수정하여 라운드 키 계산 동작을 1 라운드 이전에 온라인 방식으로 처리하는 방식을 사용하였다. 그리고 128, 192, 256 비트 키를 지원하는 모듈화된 라운드 키 생성회로를 설계하였다. 설계된 암호 프로세서는 라운드 당 1 클록을 사용하는 반복 연산 구조를 갖고 있으며, 다양한 응용 분야에 적용하기 위해 기존 ECB, CBC 모드와 함께 AES의 새로운 동작 모드로 고려되고 있는 CTR 모드를 지원한다. Verilog HDL로 모델링된 암호 프로세서는 0.25$\mu\textrm{m}$ CMOS 공정의 표준 셀 라이브러리로 합성한 결과 약 51,000개의 게이트로 구성되며, 시뮬레이션 결과 7.5ns의 최대 지연을 가지고 있어서 2.5V 전압에서 125Mhz의 동작 주파수를 갖는다. 설계된 프로세서는 키 길이가 128 비트인 ECB 모드인 경우 약 1.45Gbps의 암.복호율의 성능을 갖는다.

HEVC 기반의 실감형 콘텐츠 실시간 저작권 보호 기법 (Real-Time Copyright Security Scheme of Immersive Content based on HEVC)

  • 윤창섭;전재현;김승호;김대수
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.27-34
    • /
    • 2021
  • 본 논문에서는 HEVC(High Efficiency Video Coding) 기반의 실감형 콘텐츠에 대한 실시간 스트리밍 저작권 보호 기법을 제안한다. 기존의 연구는 저작권 사전 보호와 저작권 사후 보호를 위해 암호화와 모듈러 연산을 사용하기 때문에 초고해상도의 영상에서 지연이 발생한다. 제안하는 기법은 HEVC의 CABAC 코덱만으로 스레드풀 기반에서 DRM 패키징을 하고 GPU 기반에서 고속 비트 연산(XOR)을 사용하여 병렬화를 극대화하므로 실시간 저작권 보호가 가능하다. 이 기법은 세 가지의 해상도에서 기존 연구와 비교한 결과 PSNR은 평균 8배 높은 성능을 보였고, 프로세스 속도는 평균 18배의 차이를 보였다. 그리고 포렌식마크의 강인성을 비교한 결과 재압축 공격에서 27배 차이를 보이며, 필터 및 노이즈 공격에서는 8배 차이를 보였다.

키밸류 저장소 성능 제어를 위한 삭제 키 분리 LSM-Tree (A Tombstone Filtered LSM-Tree for Stable Performance of KVS)

  • 이은지
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.17-22
    • /
    • 2022
  • 최근 웹 서비스의 확산과 함께 데이터의 형태는 더욱 다양해지고 있다. 이미지, 동영상, 텍스트 등 데이터를 저장하는 형태 뿐 아니라 해당 데이터를 표현하는 속성 및 메타데이터 등도 개수 및 형태가 데이터 별로 상이하다. 이러한 비정형 데이터를 효율적으로 처리하기 위해 키밸류 스토어(Key-Value Store)의 사용이 확산되고 있다. LSM-Tree(Log Structured Merge Tree)는 다양한 상용 키밸류 스토어의 핵심 자료구조이다. LSM-Tree 는 모든 쓰기 및 삭제 연산을 로그 방식으로 기록함으로써 소량의 쓰기에 높은 성능을 제공하도록 최적화 되어 있다. 그러나 최근 유효성 만료 데이터의 대용량 삭제 연산이 LSM-Tree에 특수 키밸류 데이터로 삽입됨에 따라 사용자 요청의 지연시간 및 처리속도가 저하된다는 문제점이 있다. 본 논문은 기존 LSM-Tree의 장점을 모두 유지하면서도 삭제된 키를 주요 트리 구조에서 분리하여 상기 문제를 해결하는 Filtered LSM-Tree (FLSM-Tree)를 제안한다. 제안하는 기법은 상용 키밸류 저장소인 LevelDB에 구현되었으며 성능 평가에서 읽기 성능이 최대 47% 향상됨을 보인다.

저 전력 8+T SRAM을 이용한 인 메모리 컴퓨팅 가산기 설계 (Design of In-Memory Computing Adder Using Low-Power 8+T SRAM)

  • 홍창기;김정범
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.291-298
    • /
    • 2023
  • SRAM 기반 인 메모리 컴퓨팅은 폰 노이만 구조의 병목 현상을 해결하는 기술 중 하나이다. SRAM 기반의 인 메모리 컴퓨팅을 구현하기 위해서는 효율적인 SRAM 비트 셀 설계가 필수적이다. 본 논문에서는 전력 소모를 감소시키고 회로 성능을 개선시키는 저 전력 차동 감지 8+T SRAM 비트 셀을 제안한다. 제안하는 8+T SRAM 비트 셀은 SRAM 읽기와 비트 연산을 동시에 수행하고 각 논리 연산을 병렬로 수행하는 리플 캐리 가산기에 적용한다. 제안하는 8+T SRAM 기반 리플 캐리 가산기는 기존 구조와 비교 하여 전력 소모는 11.53% 감소하였지만, 전파 지연 시간은 6.36% 증가하였다. 또한 이 가산기는 PDP(: Power Delay Product)가 5.90% 감소, EDP(: Energy Delay Product)가 0.08% 증가하였다. 제안한 회로는 TSMC 65nm CMOS 공정을 이용하여 설계하였으며, SPECTRE 시뮬레이션을 통해 타당성을 검증하였다.

다중 피연산자 십진 CSA와 개선된 십진 CLA를 이용한 부분곱 누산기 설계 (Design of Partial Product Accumulator using Multi-Operand Decimal CSA and Improved Decimal CLA)

  • 이양;박태신;김강희;최상방
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.56-65
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.

다양한 최신 워크로드에 적용 가능한 하드웨어 데이터 프리페처 구현 (Implementation of Hardware Data Prefetcher Adaptable for Various State-of-the-Art Workload)

  • 김강희;박태신;송경환;윤동성;최상방
    • 전자공학회논문지
    • /
    • 제53권12호
    • /
    • pp.20-35
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.