• 제목/요약/키워드: 단위 연산

검색결과 419건 처리시간 0.031초

임베디드 데이터베이스 시스템을 위한 블록 단위 스키핑 기법 (Block-wise Skipping for Embedded Database System)

  • 정재혁;박형민;홍석진;심규석
    • 정보처리학회논문지D
    • /
    • 제16D권6호
    • /
    • pp.835-844
    • /
    • 2009
  • 일반적으로 데이터베이스 시스템에서의 질의 수행은 대부분의 경우 빠른 응답시간과 더 적은 메모리 사용량을 장점으로 가지는 파이프라이닝 기법으로 이루어진다. 이 때, 질의 수행 계획(QEP)의 각각의 연산 노드들은 Open(), Next(), Close() 함수들을 지원하는 iterator의 인터페이스를 가진다. 그런데, 플래시 메모리 기반의 휴대용 기기들을 위한 임베디드 데이터베이스 시스템에서는 iterator의 Next() 함수뿐만 아니라, 현재 레코드의 이전 레코드를 리턴해주는 Previous()와 같은 함수를 필요로 하는 경우가 많다. 이는 임베디드 환경의 경우 각각의 프로그램이 사용할 수 있는 메모리의 양이 제한적이므로, 사용자가 이전 레코드를 요청하는 경우, 결과 레코드 커서가 현재 레코드를 기준으로 이전 레코드를 다시 가져와야 하기 때문이다. 본 논문에서는 이러한 임베디드 데이터베이스 시스템의 질의 수행 시 각각의 연산 노드들이 Next() 함수뿐만 아니라 Previous() 함수를 블록 단위로 지원할 수 있도록 새롭게 설계 구현하는 과정에서 발생하는 방향 전환 문제를 소개하고 이를 해결하기 위한 블록 단위 스키핑 기법을 제안한다.

고성능 HEVC 부호기를 위한 화면내 예측 하드웨어 설계 (An Intra Prediction Hardware Design for High Performance HEVC Encoder)

  • 박승용;;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.875-878
    • /
    • 2015
  • 본 논문에서는 고성능 HEVC 부호기 화면내 예측기의 적은 연산 시간 및 연산 복잡도, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 화면내 예측기의 하드웨어 구조는 연산 복잡도를 감소시키기 위해 공통 연산기를 사용하였고, 저면적 하드웨어 구조를 위해 $4{\times}4$ 블록 단위 연산기를 사용하였다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 화면내 예측 하드웨어 구조는 $4{\times}4$ PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, $32{\times}32$ PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 화면내 예측기의 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 41.5k개의 게이트로 구현되었다. 제안하는 화면내 예측기 하드웨어 구조는 150MHz의 동작주파수에서 4K UHD@30fps 영상의 실시간 처리가 가능하며, 최대 200MHz까지 동작 가능하다.

  • PDF

8K UHD(7680×4320) H.264/AVC 부호화기를 위한 4×4블럭단위 보간 필터 및 SAD트리 기반 부화소 움직임 추정 엔진 설계 (A Design of Fractional Motion Estimation Engine with 4×4 Block Unit of Interpolator & SAD Tree for 8K UHD H.264/AVC Encoder)

  • 이경호;공진흥
    • 전자공학회논문지
    • /
    • 제50권6호
    • /
    • pp.145-155
    • /
    • 2013
  • 본 연구에서는 8K UHD($7680{\times}4320$) 영상을 실시간 부호화하기 위한 $4{\times}4$ 블록 부화소 움직임추정기를 제안한다. 연산처리성능을 향상시키기 위해 보간 연산을 $4{\times}4$ 블록 단위로 병렬화시켰으며, 병렬 보간 연산에서 필요한 메모리 대역폭을 확장하기 위해 $10{\times}10$개의 메모리 어레이를 가진 2D 캐쉬 버퍼 구조를 설계하였다. 그리고 2D 캐쉬 버퍼는 검색영역 간 재사용 기법을 적용하여 참조화소의 중복저장을 최소화하였으며, $4{\times}4$ 블록 병렬 보간 필터는 3단(수평 수직 1/2부화소, 대각선 1/2부화소, 1/4부화소) 평면 보간 연산 파이프라인 구조로 설계하여 연산회로를 고속화시켰다. 0.13um 공정에서 시뮬레이션한 결과, 436.5K게이트의 $4{\times}4$ 블록 부화소 움직임추정기는 동작주파수 187MHz에서 8K UHD급 동영상을 초당 30프레임으로 실시간 처리하는 성능을 보였다.

고속 퓨리어변환용 2차원 시스토릭 어레이를 위한 처리요소의 설계 및 제작 (Design and Fabrication of a Processing Element for 2-D Systolic FFT Array)

  • 이문기;신경욱;최병윤
    • 대한전자공학회논문지
    • /
    • 제27권3호
    • /
    • pp.108-115
    • /
    • 1990
  • 고속 퓨리어변화(Fast Fourier Transform)연산용 2차원 시스토릭 어레이의 기본 구성요소인 단위 처리요소(Unit processing element)를 직접회로로 설계, 제작하고 제작된 칩을 평가하였다. 설계된 칩은 FFT 연산을 위한 데이타셔플링 기능과 반쪽 버터플라이 연산기능을 수행한다. 약 6,500여개의 트랜지스터로 구성된 이 칩은 표준셀 방식으로 설계되었으며, 2미크론 이중 금속 P-Well CMOS 공정으로 제작되었다. 제작된 칩을 웨이퍼 상태로 프로브카드를 이용하여 평가하였으며 그 결과, 20MHz 클럭 주파수에서 반쪽 버터플라이 연산이 0.5${\mu}sec$에 수행됨을 확인하였다. 본 논문에서 설계, 제작된 칩을 이용하여 1024-point FFT를 연산하는 경우 11.2${\mu}sec$의 시간이 소요될 것으로 예상된다.

  • PDF

적응적 파이프라인을 적용한 저전력 H.264 복호기 설계 (Design of Low Power H.264 Decoder Using Adaptive Pipeline)

  • 이찬호
    • 대한전자공학회논문지SD
    • /
    • 제47권9호
    • /
    • pp.1-6
    • /
    • 2010
  • H.264 영상 압축 표준은 높은 압축률과 화질로 널리 이용되고 있다. H.264 복호기는 일반적으로 마크로블록 또는 $4{\times}4$ 하위 블록 단위로 파이프라인을 적용하여 동작한다. 이러한 파이프라인 한 단의 주기는 보통 최악의 상황에서도 동작을 보장하도록 결정되어 높은 전송 대역폭과 고성능 연산기를 요구하고 연산기가 일을 하지 않고 쉬는 사이클이 많아지는 결과를 초래한다. 본 논문에서는 이러한 연산기의 쉬는 사이클을 줄이고 데이터 전송 대역폭과 연산기 성능 요구 조건을 완화시킬 수 있는 적응적 파이프라인 구조를 채택한 효율적인 영상 복호기 구조를 제안한다. 제안한 구조에서는 파라미터와 계수는 핸드셰이킹 방식으로 전용 신호선을 통해 전달되고 복호된 영상 데이터는 AMBA AHB 네트워크를 통해 메모리에 저장하거나 읽어 온다. 각 블록의 복호 처리 시간은 영상의 특성에 따라 가변적으로 변하고 각 연산기는 데이터가 준비되면 언제든지 동작을 할 수 있다. 제안한 구조에 따라 H.264 복호기를 설계하였고 FPGA를 이용하여 동작을 검증하였다.

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.

타원곡선 기반 공개키 암호 시스템 구현을 위한 Scalable ECC 프로세서 (A Scalable ECC Processor for Elliptic Curve based Public-Key Cryptosystem)

  • 최준백;신경욱
    • 한국정보통신학회논문지
    • /
    • 제25권8호
    • /
    • pp.1095-1102
    • /
    • 2021
  • 성능과 하드웨어 복잡도 사이에 높은 확장성과 유연성을 갖는 확장 가능형 ECC 구조를 제안한다. 구조적 확장성을 위해 유한체 연산을 32 비트 워드 단위로 병렬 처리하는 처리요소의 1차원 배열을 기반으로 모듈러 연산회로를 구현하였으며, 사용되는 처리요소의 개수를 1~8개 범위에서 결정하여 회로를 합성할 수 있도록 설계되었다. 이를 위해 워드 기반 몽고메리 곱셈과 몽고메리 역원 연산의 확장 가능형 알고리듬을 적용하였다. 180-nm CMOS 공정으로 확장 가능형 ECC 프로세서 (sECCP)를 구현한 결과, NPE=1인 경우에 100 kGE와 8.8 kbit의 RAM으로 구현되었고, NPE=8인 경우에는 203 kGE와 12.8 kbit의 RAM으로 구현되었다. sECCP가 100 MHz 클록으로 동작하는 경우, NPE=1인 경우와 NPE=8인 경우의 P256R 타원곡선 상의 점 스칼라 곱셈을 각각 초당 110회, 610회 연산할 수 있는 것으로 분석되었다.

국내외 인공지능 반도체에 대한 연구 동향 (Research Trends in Domestic and International Al chips)

  • 김현지;윤세영;서화정
    • 스마트미디어저널
    • /
    • 제13권3호
    • /
    • pp.36-44
    • /
    • 2024
  • 최근 ChatGPT와 같은 초거대 인공지능 기술이 발달하고 있으며, 다양한 산업 분야 전반에서 인공지능이 활용됨에 따라 인공지능 반도체에 대한 관심이 집중되고 있다. 인공지능 반도체는 인공지능 알고리즘을 위한 연산을위해 설계된 칩을 의미하며, NVIDIA, Tesla, ETRI 등과 같이 국내외 여러 기업에서 인공지능 반도체를 개발 중에 있다. 본 논문에서는 국내외 인공지능 반도체 9종에 대한 연구 동향을 파악한다. 현재 대부분의 인공지능 반도체는 연산 성능을 향상시키기 위한 시도들이 많이 진행되었으며, 특정 목적을 위한 반도체들 또한 설계되고 있다. 다양한 인공지능 반도체들에 대한 비교를 위해 연산 단위, 연산속도, 전력, 에너지 효율성 등의 측면에서 각 반도체에 대해 분석하고, 현재 존재하는 인공지능 연산을 위한 최적화 방법론에 대해 분석한다. 이를 기반으로 향후 인공지능 반도체의 연구 방향에 대해 제시한다.

내장된 CMOS 연산증폭기의 테스트 방법 (Test Method of an Embedded CMOS OP-AMP)

  • 김강철;송근호;한석붕
    • 한국정보통신학회논문지
    • /
    • 제7권1호
    • /
    • pp.100-105
    • /
    • 2003
  • 본 논문에서는 CMOS 연산증폭기에 존재하는 모든 단락고장(short fault)과 개방고장(open fault)을 효과적으로 검출할 수 있는 새로운 테스트 방식을 제안한다. 제안하는 테스트 방식은 단위이득 대역폭(unit gain bandwidth)보다 큰 주파수를 가치는 단일 정현파를 이용한다. 이 방식은 하나의 테스트 패턴으로 모든 대상고장을 검출할 수 있으므로 테스트 패턴 생성을 위한 알고리즘이 간단하다. 따라서 패턴 생성 시간이 짧고, 테스트 비용을 줄일 수 있는 장점을 가지고 있다. 제안한 테스트 방식을 검증하기 위하여 2단 연산 증폭기를 설계하였으며, HSPICE 모의실험을 통하여 대상 고장에 대하여 높은 고장검출율(fault coverage)을 얻었다.

플래시 메모리 상에서 지연 갱신을 이용한 B-트리의 효율적인 구현 (An Efficient Implementation of B-Tree Using Lazy Update on Flash Memory)

  • 김보경;유민희;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.69-72
    • /
    • 2011
  • 플래시 메모리 기반의 저장 시스템은 빠른 접근 속도, 작고 가벼운 특성, 저전력 소모 등의 이유로 하드 디스크를 대체하는 저장 매체로 주목 받고 있다. 플래시 메모리는 하드 디스크와 다르게 읽기 쓰기 소거 연산이 필요하며 수혈 단위와 수혈 시간 이 비대칭적이다. 또한 제자리 갱신이 불가능하기 때문에 가장 느린 소거 동작을 선행하여 갱신 연산을 수행한다. 기존 호스트 시스템은 읽기 쓰기 연산 만을 수행하기 때문에 플래시 메모리를 바로 사용하기 위해서는 별도의 소프트웨어 중간 계층인 플래시 전환 계층이 필요하다. 그러나 디스크 기반의 B-트리를 플래시 전환 계층 위에서 인덱스로 사용하면 B-트리 특성상 제자리 갱신이 빈번하게 발생하기 때문에 성능 저하가 발생한다. 따라서 플래시 메모리 특성을 고려한 새로운 인덱스 구조가 필요하게 되었다. 플래시 메모리 전용의 인덱스 ${\mu}$-트리와 LSB-트리가 제안 되었지만, ${\mu}$-트리는 페이지 관리의 비효율성, LSB-트리는 임시 노드 관리 추가 비용의 문제점을 가지고 있다. 본 논문에서 ${\mu}$-트리와 LSB 트리의 문제점을 해결하기 위하여 지연 갱신을 이용한 B-트리를 제안한다. 제안하는 인덱스는 변경이 일어나는 노드를 메모리에 적재시켜 데이터 삽입 시 노드 갱신을 지연시키고 노드 분할 없이 데이터의 순차 삽입을 처리하여 검색 및 쓰기 성능을 향상시킨다. 본 논문에서는 관련 연구인 ${\mu}$-트리와 LSB-트리를 수식을 통하여 제안하는 인덱스 구조의 우수성을 보인다.