• 제목/요약/키워드: 고성능연산

검색결과 296건 처리시간 0.028초

고성능 I/O 지원을 위한 계층형 스토리지 구현 (Implementation of Tiering Storage to Support High-Performance I/O)

  • 윤준원;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.50-52
    • /
    • 2023
  • ML/DL과 같은 AI의 연구가 HPC 환경에서 수행되면서 데이터 병렬화, 분산 학습 및 대규모 데이터 세트를 처리를 위한 요구사항이 급격히 증가하였다. 또한, 병렬처리 연산에 특화된 가속기 기반 이기종 아키텍처 환경 변화로 I/O 처리에 고대역폭, 저지연의 스토리지 기술을 필요로 하고 있다. 본 논문에서는 고집적의 병렬 컴퓨팅 환경에 고성능 HPC, AI 애플리케이션을 처리하기 위한 티어링 스토리지 기술을 논한다. 나아가 실제 고성능 NVMe 기반의 플래시 티어링 계층 구성에서 액세스 패턴에 따른 데이터 처리 환경을 구축하고 성능을 검증한다. 이로써 다양한 사용자 어플리케이션의 I/O 패턴을 특성에 맞게 지원할 수 있다.

합성체 기반의 S-Box와 하드웨어 공유를 이용한 저면적/고성능 AES 프로세서 설계 (A design of compact and high-performance AES processor using composite field based S-Box and hardware sharing)

  • 양현창;신경욱
    • 대한전자공학회논문지SD
    • /
    • 제45권8호
    • /
    • pp.67-74
    • /
    • 2008
  • 다양한 하드웨어 공유 및 최적화 방법을 적용하여 저면적/고성능 AES(Advanced Encryption Standard) 암호/복호 프로세서를 설계하였다. 라운드 변환블록 내부에 암호연산과 복호연산 회로의 공유 및 재사용과 함께 라운드 변환블록과 키 스케줄러의 S-Box 공유 등을 통해 회로 복잡도가 최소화되도록 하였으며, 이를 통해 S-Box의 면적을 약 25% 감소시켰다. 또한, AES 프로세서에서 가장 큰 면적을 차지하는 S-Box를 합성체 $GF(((2^2)^2)^2)$ 연산을 적용하여 구현함으로써 $GF(2^8)$ 또는 $GF((2^4)^2)$ 기반의 설계에 비해 S-Box의 면적이 더욱 감소되도록 하였다. 64-비트 데이터패스의 라운드 변환블록과 라운드 키 생성기의 동작을 최적화시켜 라운드 연산이 3 클록주기에 처리되도록 하였으며, 128비트 데이터 블록의 암호화가 31 클록주기에 처리되도록 하였다. 설계된 AES 암호/복호 프로세서는 약 15,870 게이트로 구현되었으며, 100 MHz 클록으로 동작하여 412.9 Mbps의 성능이 예상된다.

HEVC를 위한 고성능 다중 모드 2D 변환 블록의 설계 (Design of High Performance Multi-mode 2D Transform Block for HEVC)

  • 김기현;류광기
    • 한국정보통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.329-334
    • /
    • 2014
  • 본 논문에서는 4가지의 TU를 동일한 사이클에 처리하는 고성능 다중모드 2D 변환기의 하드웨어 구조를 제안한다. HEVC의 변환 기술은 고해상도, 고화소의 영상을 높은 효율로 압축하기 위해 4가지의 화소 단위 TU를 지원하여 각각의 변환 연산을 수행한 후 최적의 모드를 찾는다. 제안하는 변환기는 변환 행렬 계수들 간의 관계를 분석하여 공통 연산기를 사용한 구조로 설계하여 4가지의 TU 모드 행렬 연산을 처리하는 사이클 수가 동일하게 35cycle로 처리된다. TSMC 018nm CMOS 공정 라이브러리를 사용해 합성한 결과 $4k(3840{\times}2160)@30fps$의 영상을 기준으로 최대 동작주파수는 400MHz이고 총 게이트 수는 214k가 소요되었으며, 10-Gpels/cycle의 처리량을 갖는다.

효율적인 필터 계수 추출을 위한 HEVC 부호화기의 고성능 ALF 하드웨어 설계 (Hardware Design of High Performance ALF in HEVC Encoder for Efficient Filter Coefficient Estimation)

  • 신승용;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.379-385
    • /
    • 2015
  • 본 논문에서는 필터 계수를 효율적으로 추출하기 위한 고성능 ALF(Adaptive Loop Filter)의 하드웨어 구조를 제안한다. HEVC의 ALF 기술은 고해상도 및 고화질의 영상을 높은 효율로 압축하고 주관적 화질을 향상시키기 위해 영상의 통계적인 특성을 이용한 필터 계수를 추출하여 필터링을 수행한다. 제안하는 ALF 하드웨어 구조는 필터 계수를 추출하기 위한 촐레스키 분해의 연산 관계를 분석하여 2단 파이프 구조로 설계함으로써 수행 사이클을 감소시켰다. 또한, 촐레스키 분해의 연산 과정에서 필요한 루트 연산은 멀티플렉서와 뺄셈기, 비교기 등을 이용하여 설계함으로써 적은 면적과 연산량, 복잡도를 갖는 하드웨어 구조로 설계하였다. 제안한 하드웨어는 Xilinx ISE 14.3 Vertex-7 XC7VCX485T FPGA 디바이스를 사용하여 합성한 결과 4K(3840x2160)@40fps의 영상을 실시간 처리할 수 있고, 최대 동작주파수는 186MHz이다.

개선된 몽고메리 알고리즘을 이용한 저면적용 RSA 암호 회로 설계 (Design of RSA cryptographic circuit for small chip area using refined Montgomery algorithm)

  • 김무섭;최용제;김호원;정교일
    • 정보보호학회논문지
    • /
    • 제12권5호
    • /
    • pp.95-105
    • /
    • 2002
  • 본 논문에서는 공개키 암호 시스템에서 인증, 키 교환 및 전자 서명을 위해 사용되는 RSA 공개키 암호 알고리즘의 효율적인 하드웨어 구현 방법에 대해 기술하였다. RSA 공개키 알고리즘은 모듈러 멱승 연산에 의해 계산되어지며, 모듈러 멱승 연산은 반복적인 모듈러 곱셈 연산을 필요로 한다. 모듈러 곱셈 구현을 위한 많은 알고리즘 중, 하드웨어 구현의 효율성 때문에 Montgomery 알고리즘이 많이 사용되어지고 있다. 지금까지 몽고메리 알고리즘을 이용하여 고성능의 RSA 암호회로를 설계하는 연구는 많이 수행되어 왔으나, 대부분의 연구가 시스템의 고성능을 위한 연산 시간의 감소에 중점을 두고있다. 하드웨어 구현에 제한이 있는 시스템에서 하드웨어 설계 시 가장 고려해야 할 사항은 시스템의 성능과 면적을 고려한 설계이다. 이러한 이유로, 본 논문에서는 기존의 Montgomery 알고리즘을 저면적 회로에 적합한 구조로 개선하였으며, 개선된 알고리즘을 이용하여 ETRI에서 개발한 스마트 카드용 에뮬레이팅 시스템인 IESA 시스템에 적용하여 검증하였다.

스테레오 비전을 위한 고성능 VLSI 구조 (High-Performance VLSI Architecture for Stereo Vision)

  • 서영호;김동욱
    • 방송공학회논문지
    • /
    • 제18권5호
    • /
    • pp.669-679
    • /
    • 2013
  • 본 논문에서는 실시간으로 스테레오 정합을 수행하기 위한 VLSI(Very Large Scale Integrated Circuit)구조를 제안한다. 스테레오 정합의 연산을 분석하여 중간 연산 결과를 재사용하여 연산량과 메모리 접근수를 최소화한다. 이러한 동작을 수행할 수 있는 스테레오 정합 연산 셀의 구조를 제안하고, 이를 병렬적으로 확장하여 탐색 범위 내의 모든 비용함수를 동시에 연산할 수 있는 하드웨어의 구조를 제안한다. 이러한 하드웨어 구조를 확장하여 2차원 영역에 대한 비용함수를 연산할 수 있는 하드웨어의 구조와 동작을 제안한다. 구현한 하드웨어는 FPGA(Field Programmable Gate Array) 환경에서 최소 250Mhz의 클록 주파수에서 동작이 가능하고, 64화소의 탐색범위를 적용한 경우에 $640{\times}480$ 스테레오 영상을 약 805fps의 성능으로 처리할 수 있다.

디지털 홀로그램의 2차원적인 병렬 생성을 위한 알고리즘 및 고성능 하드웨어 설계 (A New Algorithm and High-Performance Hardware Design for 2-Dimensional Parallel Generation of Digital Hologram)

  • 양월성;서영호;김동욱
    • 한국정보통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.133-142
    • /
    • 2012
  • 본 논문에서는 홀로그램의 기본 원리인 빛의 간섭현상을 수학적 연산을 통하여 획득하는 컴퓨터 생성 홀로그램의 고속 알고리즘을 제안하고, 이를 하드웨어로 구현한다. 컴퓨터 생성 홀로그램을 고속화하기 위하여 연산 식을 변형하여 병렬 연산이 가능하도록 하며, 이를 두 종류의 (초기 연산 셀과 추가 연산 셀) 구조로 하드웨어를 구현한다. 병렬 연산 알고리즘은 홀로그램의 화소 맨 좌측 열의 값만 연산한 후 나머지 열의 화소 값은 모두 동시에 구할 수 있는 알고리즘으로, 초기 연산 셀은 화소 맨 좌측 값을 연산하고, 나머지 열의 값은 추가 연산 셀로 연산하는 방법이다. 최대 동작 주파수는 약 215MHz이었으며, 이 동작 주파수를 기준으로 기존의 방법들 중 가장 우수한 성능을 보이는 방법과 동일하게 환경을 설정하여 실험을 수행하였다. 그 결과 초당 62.9 CGH 프레임을 연산하는 기존의 방법에 비해 제안한 방법은 초당 81.75 CGH 프레임을 연산하여 약 1.3배의 속도가 향상됨을 확인하였다.

고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계 (An Optimized Hardware Design for High Performance Residual Data Decoder)

  • 정홍균;류광기
    • 한국산학기술학회논문지
    • /
    • 제13권11호
    • /
    • pp.5389-5396
    • /
    • 2012
  • 본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화기는 4개의 공통 연산기를 병렬처리하기 때문에 $4{\times}4$ 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제안하는 역변환기는 8개의 역변환 연산기를 사용하여 $4{\times}4$ 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 $4{\times}4$ 블록을 처리하는 데 1 사이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다.

ATSC-DASE 기반 고성능 셋톱박스의 설계 (Design of a High Performance Set-Top Box Based on ATSC-DASE)

  • 방건;양진영;최진수;김진웅
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2001년도 정기총회 및 학술대회
    • /
    • pp.35-38
    • /
    • 2001
  • 최근 급속하게 발전하고 있는 컴퓨터, 인터넷 분야의 디지털 기술과 함께 방송 환경도 기존의 아날로그 방식에서 디지털 방식으로 바뀌어 가고 있다. 최근 이러한 디지털 방송 환경의 도입으로 A/V 프로그램의 고화질 서비스 제공과 더불어 다양한 멀티미디어 콘텐츠를 방송망을 통해 전송할 수 있는 데이터방송 기술에 대한 관심이 고조되고 있다. 현재 실시간 운영체제(Real Time O/S)를 이용한 독립형 데이터방송 셋톱박스들의 성능은 Java 나 XML을 기반으로 저작된 콘텐츠들을 처리할 수 있으나 MPEG-4와 같은 객체 기반의 멀티미디어 콘텐츠를 처리하기에는 연산 능력의 한계를 가지고 있다. 그러나 앞으로 데이터방송 서비스의 발전 방향은 시청자가 직접 방송 내용에 대해 활발하게 상호 작용을 할 수 있는 대화형 방송 서비스로 발전할 것이다. 이러한 대화형 방송에서 사용되는 콘텐츠는 복잡하고 계산량이 많이 요구되며 이를 처리하기 위해서 셋톱박스는 높은 연산량을 가진 다양한 멀티미디어 기능을 처리할 수 있어야 한다. 따라서 본 논문에서는 디지털 지상파 데이터방송시 ATSC-DASE 기반의 콘텐츠와 MPEG-4 콘텐츠를 수신하고 처리할 수 있는 PC 기반의 고성능 셋톱박스에 대한 설계 방안을 제안한다.

  • PDF

인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법 (A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System)

  • 한혁;최재용;진성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.