• Title/Summary/Keyword: 프로세서 구조

Search Result 1,040, Processing Time 0.029 seconds

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

영상처리용 프로세서를 위한 효율적인 이차원 어드레스 지정 기법 (An Efficient 2-dimensional Addressing Mode for Image Processor)

  • 고윤호;윤병주;김성대
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.486-497
    • /
    • 2001
  • 본 논문에서는 프로그램 가능한 하드웨어 장치에서 영상 처리를 효율적으로 수행하기 위한 새로운 메모리 어드레스 지정 방법(addressing mode)을 제안한다. 기존의 어드레스 지정 방법은 음성과 같은 일차원적인 형태의 데이터 처리에 적합한 반면, 제안된 메모리 어드레스 지정 기법은 영상 데이터의 이차원적인 특성을 고려한 새로운 메모리 어드레스 지정 기법이다. 제시된 기법은 기존의 메모리 구조를 바꾸지 않으면서도 이차원 데이터의 위치를 표시할 수 있는 두개의 오퍼랜드를 입력으로 메모리에 저장된 영상데이터 값을 처리는 명령어이다. 이차원적인 특성을 지니는 새로운 메모리 어드레스 지정 기법은 다음과 같은 장점을 지닌다. 먼저, 기존 하드웨어에서 여러 명령어에 걸쳐 수행해야 할 작업을 통합함으로써, 수행해야 할 프로그램의 코드 사이즈를 줄여 하드웨어의 성능을 높임과 동시에 근래 무선 응용 분야에서 요구되는 저전력 동작을 가능하게 한다. 아울러, 영상 데이터가 가지는 이차원적인 특성을 그대로 반영하므로, 사용자가 보다 쉽게 어셈블러를 통해 어플리케이션을 프로그램 할 수 있다. 이와 같은 이차원적인 메모리 어드레스 지정 기법은 각종 DSP, media processor, 그래픽 장치 등에 이용될 수 있다. 본 논문에서는 이러한 이차원 메모리 어드레스 지정 기법의 개념을 제안함과 동시에, 이를 효율적으로 구현하기 위한 하드웨어 구조를 제시한다.

  • PDF

고속의 최장 IP 주소 프리픽스 검색을 위한 비트-맵 트라이 (A Bit-Map Trie for the High-Speed Longest Prefix Search of IP Addresses)

  • 오승현;안종석
    • 한국정보과학회논문지:정보통신
    • /
    • 제30권2호
    • /
    • pp.282-292
    • /
    • 2003
  • 본 논문은 IPv4와 IPv6을 지원하는 라우터에서 기가비트의 속도로 포워딩 검색을 수행하는 효율적인 포워딩 테이블 구조를 제안한다. 포워딩 검색은 최장 프리픽스 일치검색, LPM(Longest Prefix Matching)의 복잡도가 포워딩 테이블 및 주소크기에 따라 증가하여 라우터 성능의 병목지점으로 알려져 있다. 포워딩 검색의 고속화를 위해 본 논문에서는 빈번한 메모리 접근을 최소화할 수 있는 BMT(Bit-Map Trie) 자료구조를 소개한다. BMT 포워딩 검색은 필요한 모든 검색연산이 캐쉬에 저장된 소형 인덱스 테이블에서만 발생한다. 포워딩 테이블의 트라이로부터 소형 인덱스 테이블을 구축하기 위해서 BMT는 차일드(child) 노드 포인터와 포워딩 테이블 엔트리에 대한 포인터를 각각 한 비트로 표현하는 비트-맵을 구성한다. 또한 IPv6와 같이 주소길이가 증가하면 트라이의 깊이가 깊어져서 전통적인 트라이 검색속도가 느려지는 문제점을 해결하기 위해서 BMT에서는 검색을 시작할 적절한 트라이의 레벨을 결정하는 이진검색 알고리즘을 사용한다. 실험 결과 BMT는 IPv4 백본 라우팅 테이블을 펜티엄-II 프로세서의 L2 캐쉬 크기인 512KB 보다 작게 압축하였으며, 최대 250ns/패킷의 검색속도를 제공하여 기존의 알려진 가장 빠른 최장 검색 알고리즘의 성능과 같은 속도를 실현하였다.

HCM 클러스터링에 의한 다중 퍼지-뉴럴 네트워크 동정과 유전자 알고리즘을 이용한 이의 최적화 (Multi-FNN Identification by Means of HCM Clustering and ITs Optimization Using Genetic Algorithms)

  • 오성권;박호성
    • 한국지능시스템학회논문지
    • /
    • 제10권5호
    • /
    • pp.487-496
    • /
    • 2000
  • 본 논문에서는, HCM 클러스러팅 방법과 유전자 알고리즘을 이용하여 다중 FNN 모델을 동정하고 최적화 한다. 제안된 다중 FNN은 Yamakawa의 FNN을 기본으로 하며, 퍼지 추론 방법으로 간략 추론을, 학습으로는 오류 역전파 알고리즘을 사용한다. 다중 FNN 모델의 구조와 파라미터를 동정하기 위해 HCM 클러스터링과 유전자 알고리즘을 사용한다. 여기서, 시스템 모델링을 위해 데이터 전처리 기능을 수행하는 HCM클러스터링 방법은 I/O 프로세서 공정 데이터를 이용하여 입출력 공간분할에 의한 다중 FNN 구조를 결정하기 위해 사용된다. 또한 유전자 알고리즘을 사용하여 멤버쉽함수의 정점, 학습율, 모멘텀 계수와 같은 다중 FNN 모델의 파라미터들을 동조한다. 모델의 근사화와 일반화 능력 사이에 합히적 균형을 얻기 위해 하중계수를 가진 합성 성능지수를 사용한다. 이 합성 성능지수는 근사화 및 예측 능력사이의 상호 균형과 의존성을 고려한 하중계수를 가진 합성 목적함수를 의미한다. 데이터 개수, 비선형성의 정도에 의존하는 이 합성 목적함수의 하중계수의 선택, 조절을 통하여 최적의 다중 FNN 모델을 설계하는 것이 유용하고 효과적임을 보인다. 제안된 모델의 성능 평가를 위하여 가스로 공정의 시계열 데이터와 비선형 함수의 수치 데이터를 사용한다.

  • PDF

얼굴 검출을 위한 SoC 하드웨어 구현 및 검증 (A design and implementation of Face Detection hardware)

  • 이수현;정용진
    • 대한전자공학회논문지SD
    • /
    • 제44권4호
    • /
    • pp.43-54
    • /
    • 2007
  • 본 논문에서는 실시간 처리를 위한 얼굴 검출 알고리즘의 하드웨어 엔진을 설계하고 검증하였다. 얼굴 검출 알고리즘은 주어진 이미지에서 학습된 얼굴의 특징데이터를 통하여 얼굴의 대략적인 위치를 찾는 연산을 수행한다. 얼굴 검출 알고리즘을 하드웨어 구조로 설계하기 위해 Integral Image Calculator, Feature Coordinate Calculator, Feature Difference Calculator, Cascade Calculator, Window Detector 등의 5 단계로 구조를 나누었으며, On-Chip Integral Image memory 와 Feature Parameter Memory를 설계하였다. 삼성전자의 S3C2440A 프로세서 칩과 Xilinx사의 Virtex4LX100을 이용하여 검증 플랫폼을 구축하고, CCD카메라를 통하여 실제 얼굴의 영상을 받아들여 얼굴 검출을 실시간으로 구동시켜 검증하였다. 설계된 하드웨어는 Virtex4LX100 FPGA를 타겟으로 합성 시에 3,251 LUTs 를 사용하고, 24MHz의 동작 속도에서 검색 윈도우의 이동 간격에 따라 프레임 당 1.96$\sim$0.13 초의 실행속도를 가진다. 그리고 매그나칩 0.25um ASIC 공정으로 제작 시 41만 게이트 (Combinational area 약 34.5만 게이트, Noncombinational area 약 6.5만 게이트)의 크기를 가지며, 100MHz의 동작 속도에서 프레임 당 0.5초 미만의 실행 속도로, 임베디드 시스템의 실시간 얼굴 검출 솔루션에 적합함을 보여준다. 실제 XF1201칩의 일부 모듈로 구현되어 동작함이 확인되었다.

저심도 모듈식 구조체의 벽체간 연결 조인트 성능검증 실험 (Performance Test of Wall to Wall Modular Structure Joint for Near-surface Transit)

  • 이종순;김희성;이성형;이준경
    • 한국철도학회논문집
    • /
    • 제18권3호
    • /
    • pp.261-269
    • /
    • 2015
  • 자갈궤도에서 레일과 침목을 연결하는 체결장치의 레일패드 강성이 증가함에 따라 윤중이 증가하고 궤도틀림진전이 증가되어 궤도유지보수비가 증가하게 된다. 반면에 레일패드강성이 감소하면 차량운행에 따른 전력소모비가 증가하게 된다. 따라서 자갈궤도 설계 시에 차량과 궤도 및 운영조건을 고려하여 궤도유지보수비와 전력소모비를 가급적 작게 할 수 있는 적정 레일패드강성을 결정하는 것은 철도 경제성 확보차원에서 중요한 과제라 할 수 있다. 본 연구에서는 $L{\acute{o}}pez$ Pita 등이 제시한 자갈궤도에서의 최적레일패드 강성을 평가하는 프로세서를 기초로 적정 레일패드강성 범위를 구하였다. 연구결과에 중요한 영향을 주는 레일패드강성에 따른 윤중변화를 보다 정확하게 평가하기 위하여 궤도구성품의 거동특성을 보다 상세하게 고려할 수 있는 고도화된 수치해석적 기법을 사용하여 평가하였다. 또한 국내에서의 차량, 궤도 운영조건을 고려함으로써 국내에서 궤도설계에 적용할 수 있는 적정 레일패드강성 범위를 도출하였다.

영상 평활화를 위한 화소-병렬 영상처리 시스템에 관한 연구 (A Study on the Pixel-Paralled Image Processing System for Image Smoothing)

  • 김현기;이천희
    • 대한전자공학회논문지SD
    • /
    • 제39권11호
    • /
    • pp.24-32
    • /
    • 2002
  • 본 논문에서는 포맷 변환기를 사용하여 여러 가지 영상처리 필터링을 구현하였다. 이러한 설계 기법은 집적회로를 이용한 대규모 화소처리배열을 근거로 하여 실현하였다. 집적구조의 두가지 형태는 연산병렬프로세서와 병렬 프로세스 DRAM(또는 SRAM) 셀로 분류할 수 있다. 1비트 논리의 설게 피치는 집적 구조에서의 고밀도 PE를 배열하기 위한 메모리 셀 피치와 동일하다. 이러한 포맷 변환기 설계는 효율적인 제어 경로 수행을 능력을 가지고 있으며 하드웨어를 복잡하게 할 필요 없이 고급 기술로 사용 될 수 있다. 배열 명령어의 순차는 프로세스가 시작되기 전에 호스트 컴퓨터에 의해 생성이 되며 명령은 유니트 제어기에 저장이 된다. 호스트 컴퓨터는 프로세싱이 시작된 후에 저장된 명령어위치에서 시작하여 화소-병렬 동작을 처리하게 된다. 실험 결과 1)단순한 평활화는 더 높은 공간의 주파수를 억제하면서 잡음을 감소시킬 뿐 아니라 에지를 흐리게 할 수 있으며, 2) 평활화와 분할 과정은 날카로운 에지를 보존하면서 잡음을 감소시키고, 3) 평활화와 분할과 같은 메디안 필터링기법은 영상 잡음을 줄이기 위해 적용될 수 있고 날카로운 에지는 유지하면서 스파이크 성분을 제거하고 화소 값에서 단조로운 변화를 유지 할 수 있었다.

RB 연산을 이용한 고속 2의 보수 덧셈기의 설계 (The Design of A Fast Two′s Complement Adder with Redundant Binary Arithmetic)

  • 이태욱;조상복
    • 대한전자공학회논문지SD
    • /
    • 제37권5호
    • /
    • pp.55-65
    • /
    • 2000
  • 본 논문에서는 CPF(Carry-Propagation-Free)의 특성을 갖는 RB(Redundant Binary)연산을 이용한 새로운 구조의 24비트 2의 보수 덧셈기를 설계하였다. TC2RB(Two's Complement to RB SUM converter)의 속도와 트랜지스터 개수를 줄이기 위해 MPPL(Modifed PPL) XOR/XNOR 게이트를 제안하고 고속 RB2TC(RB SUM to Two's Complement converter)를 사용한 두 가지 형태의 덧셈기를 제안하였다. 각 덧셈기의 특징을 살펴보면, TYPE 1 덧셈기는 VGS(Variable Group Select) 방식을 사용하여 덧셈기의 속도를 향상시켰으며 TYPE 2 덧셈기는 64비트 GCG(Group Change bit Generator)회로와 8비트 TYPE 1 덧셈기를 사용하여 속도를 향상시켰다. 64비트 TYPE 1 덧셈기의 경우 CLA와 CSA에 비해 각각 23.5%, 29.7%의 속도 향상을 TYPE 2 덧셈기의 경우 각각 41.2%, 45.9%의 속도 향상을 기대할 수 있다. 레이아웃된 24비트 TYPE 1과 TYPE 2 덧셈기의 전달지연 시간은 각각 1.4ns와 1.2ns로 나왔다. 제안한 덧셈기는 매우 규칙적인 구조를 가지고 있기 때문에 빠른 시간에 회로 설계 및 레이아웃이 가능하며 마이크로프로세서나 DSP 등과 같이 고속연산을 필요로 하는 경우에 적합하다.

  • PDF

클러스터 상에서 다중 코어 인지 부하 균등화를 위한 Chapel 데이터 분산 구현 (Implementation of Multicore-Aware Load Balancing on Clusters through Data Distribution in Chapel)

  • 구본근
    • 정보처리학회논문지A
    • /
    • 제19A권3호
    • /
    • pp.129-138
    • /
    • 2012
  • 클러스터와 같은 분산 메모리 구조에서 각 노드는 전체 데이터의 일부분을 저장하고 있다. 이러한 구조에서는 데이터를 각 노드에 분산시키는 방법이 성능에 영향을 준다. 데이터 분산 정책은 데이터를 노드들에게 분산시켜 병렬 데이터 처리를 실현하는 정책이다. 클러스터 관리, 확장, 업그레이드 등 다양한 요인으로 인해 클러스터의 각 노드 성능이 동일하지 않을 수 있다. 이러한 클러스터에서 노드의 성능을 고려하지 않은 데이터 분산 정책은 데이터를 각 노드에 효율적으로 분산시키지 못할 수 있다. 본 논문에서는 각 노드의 성능을 나타내는 인자로 노드에 장착되어 있는 프로세서의 코어 수를 이용하고, 이를 고려한 데이터 분산 정책을 제안한다. 본 논문에서 제안하는 데이터 분산 정책에서는 전체 코어 수 대비 노드에 장착된 코어 수에 비례하여 데이터를 노드에 분산 저장하도록 할당을 한다. 또, 본 논문에서 제안하는 데이터 분산 정책을 Chapel 언어를 이용하여 구현하였다. 본 논문에서 제안하는 데이터 분산 정책이 효과적임을 입증하기 위해 이 정책을 이용하여 Mandelbrot 집합과 원주율을 계산하는 병렬 프로그램을 작성하고, 클러스터에서 실행하여 실행 시간을 비교한다. 8-코어와 16-코어로 구성되어 있는 클러스터에서 수행한 결과에 의하면 노드의 코어 수를 기반으로 한 데이터 분산 정책이 병렬 프로그램의 수행 시간 감소에 기여하였다.

고 고도 전자기파(HEMP) 발생과 전파해석 및 방호실 최적 설계 Tool 개발 (Development of the HEMP Generation, Propagation Analysis, and Optimal Shelter Design Tool)

  • 김동일;민경찬
    • 한국정보통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.2331-2338
    • /
    • 2014
  • 북한의 핵폭탄과 미사일 기술개발이 진전됨에 따라 고 고도 핵전자기파(HEMP)에 대한 위협이 새롭고 절박하게 인지되고 있는데, 일례로 이미 북한이 수개의 핵폭탄을 개발 보유하고 있으며 북한이 남한에 대한 핵탄두 운반 능력을 가지고 남한을 위협하고 있다. ITU K78, K81 그리고 IEC에서는 EMP/HEMP로부터 프로세서 내장 기기의 오동작을 줄이기 위해 항해 통신장비를 포함한 산업용 설비에 대한 대책을 권장하고 있으나, 이에 대한 의사시험은 1960-1990년대 미국공군무기연구소(USA/AFWL)의 논문들을 토대로 수행할 수 밖에 없다. 이 모의 시험결과는 모든 HEMP 관련 제품이 강력하게 수출을 통제하고 있기 때문에 북한의 위협에 직면한 남한으로서는 매우 중요한 연구 활동의 결과이다. 저자 등이 새롭게 개발한 HEMP cord는 HEMP의 발생과 전파현상 분석, 방호실 설계 툴, 흙과 암반으로 구성된 다충 구조에서 전자파 에너지의 감쇠량 그리고 HEMP 필터 설계 툴을 포함하고 있다. 특히 다층구조에서 전자파 감쇠량 연산 툴은 흙과 암반이 매우 다양한 특성을 가지고 있기 때문에 많은 실측 데이터를 바탕으로 최소자승법에 의하여 해석하였다.