• 제목/요약/키워드: 병렬프로세서

검색결과 579건 처리시간 0.025초

SoC 기반 상황인식 시스템 구조 (An SoC-based Context-Aware System Architecture)

  • 손봉기;이건명;김종태;이승욱;이지형;전재욱;조준동
    • 한국지능시스템학회논문지
    • /
    • 제14권4호
    • /
    • pp.512-516
    • /
    • 2004
  • 상황인식(context-aware)은 인간-컴퓨터 상호작용의 단점을 극복하기 위한 방범으로써 많은 주목을 받고 있다. 이 논문에서는 SoC(System-on-a-Chip)로 구현될 수 있는 상황인식 시스템 구조를 제안한다. 제안한 구조는 센서 추상화, 컨텍스트 변경에 대한 통지 메커니즘, 모듈식 개발, if-then 규칙을 이용한 쉬운 서비스 구성과 유연한 상황인식 서비스 구현을 지원한다. 이 구조는 통신 모듈, 처리 모듈, 블랙보드를 포함하는 SoC 마이크로프로세서 부분과 규칙 기반 시스템 모듈을 구현한 하드웨어로 구성된다. 규칙 기반 시스템 하드웨어는 모든 규칙의 조건부에 대해 매칭 연산을 병렬로 수행하고, 규칙의 결론부는 마이크로프로세서에 내장된 행위 모듈을 호출함으로써 작업을 수행한다. 제안한 구조의 SoC 시스템의 규칙의 매칭부분은 SystemC SoC 개발 환경에서 설계하여 구조의 타당성을 확인하였고, 마이크로프로세서에 내장될 행위모듈에 대해서는 소프트웨어적으로 타당성을 확인하였다. 제안한 SoC 기반의 상황인식 시스템 구조는 주거 환경에서 컨텍스트를 인식하여 노인을 보조하는 지능형 이동 로봇 등에 적용될 수 있을 것으로 기대된다.

2차원 구조 대비 3차원 구조 GPU의 메모리 접근 효율성 분석 (Memory Delay Comparison between 2D GPU and 3D GPU)

  • 전형규;안진우;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.1-11
    • /
    • 2012
  • 최근 반도체 공정 기술이 발달함에 따라 단일 프로세서에 적재되는 코어의 수가 크게 증가하였고, 이는 프로세서의 성능을 급격하게 향상시키는 계기가 되고 있다. 특히, 많은 수의 코어들로 구성된 GPU(Graphics Processing Unit)는 대규모 병렬성을 활용하여 연산처리 성능을 크게 향상시키고 있다. 하지만, 주 메모리 접근 지연시간이 GPU의 성능 향상을 제약하는 심각한 요인 중 하나로 제기되는 상황이다. 본 논문에서는 3차원 구조를 통한 GPU의 메모리 접근 효율성 향상에 대한 정량적 분석과 3차원 구조 적용 시 발생 가능한 문제점에 대하여 살펴보고자 한다. 일반적으로 메모리 명령어 비율은 평균적으로 전체 명령어의 30%를 차지하고, 메모리 명령어 중에서 주 메모리 접근과 관련된 글로벌/로컬 메모리 명령어가 차지하는 비율 또한 평균 60%이므로 주 메모리로의 접근 지연시간을 크게 감소시키는 3차원 구조를 적용한다면 GPU의 성능 또한 크게 향상시킬 수 있을 것으로 예상된다. 그러나 본 논문에서 수행한 실험 결과에 따르면 메모리 병목현상으로 인해 3차원 구조 GPU의 성능이 2차원 구조 GPU에 비해 크게 향상되지는 않음을 확인할 수 있다. 분석 결과에 의하면, 3차원 구조 GPU는 2차원 구조 GPU와 비교하여 메모리 병목현상으로 인한 성능 지연이 최대 245%까지 증가하기 때문이다. 본 논문에서는 3차원 구조 GPU를 대상으로 메모리 접근의 효율성과 문제점을 함께 분석함으로써, 3차원 GPU에 적합한 메모리 구조를 설계하기 위한 가이드라인을 제시하고자 한다.

유선 센서 네트워크 인터페이스 시스템 구현 (Implementation of Wired Sensor Network Interface Systems)

  • 김동혁;금민하;오세문;이상훈;모하마드 라키불 이슬람;김진상;조원경
    • 대한전자공학회논문지SD
    • /
    • 제45권10호
    • /
    • pp.31-38
    • /
    • 2008
  • 본 논문은 유선으로 연결된 다양한 센서들의 제어와 센서들 간의 호환성을 보장하는 IEEE 1451.2 표준을 적용한 센서 네트워크 시스템 구현에 대한 연구이다. 제안된 시스템은 IEEE 1451.0에서 기술된 네트워크 수용 가능한 응용 프로세서(NCAP-Network Capable Application Processor)와 IEEE 1451.2에서 기술된 변환기 독립 인터페이스(TII-Transducer Independent Interface), 변환기 전자 데이터 시트(TEDS-Transducer Electronic Data Sheet)와 아날로그 디지털 변환기를 포함한 송수신기 부분으로 구성된다. 본 시스템은 추후 반도체 집적회로 설계에 용이할 수 있돌고 시스템의 소형화와 최적화를 목표로 구현되었다. 네트워크 수용 가능한 응용 프로세서는 개인용 컴퓨터상에서 C언어로 구현하였고 변환기 독립 인터페이스는 개인용 컴퓨터의 병렬포트와 FPGA(Field-Programmable Gate Array) 응용보드의 확장포트를 이용하였고, 송수신기는 FPGA 응용보드를 이용하여 Verilog로 구현하였다. 표준에 근거한 실험을 수행하여 제안된 구조의 검증을 수행하였다.

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

한정된 프로세서 환경에서 체이지 실행시간 동기화를 이용한 효율적인 다중 결합 (Efficient Multiple Joins using the Synchronization of Page Execution Time in Limited Processors Environments)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.732-741
    • /
    • 2001
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타 베이스 절의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 수개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당트리를 이용한 방법이 가장 우수한 것으로 알려져 와싸. 그러나 이 방법은 할당 트리의 각 노트에서 필연적인 지연이 발생되는데 이는 루플 실험단계에서 외부 릴레이션을 디스트로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 실행시간 차이에 의해 발생하게 된다. 이는 페이지 실행시간 동기화 기법을 이용하여 할당 트라 한 노드에서의 실행시간을 줄일 수 있었다. 본 논문에서는 한 노드에서의 성능 개선 효과를 할당 트리 전체로 확장하여 전체 다중 해쉬 결합의 성능 분석을 수행하였으며 한정된 프로세서 환경 하에서 입력 릴레이션 수와 할당된 프로세서 수와의 관게에 따른 효율적인 다중 해쉬 결합 알고리즘을 제안하였다. 그리고 분석적 비용 모형을 세워 기존 방식과의 다양한 성늘 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF

마이크로 프로세서를 이용한 축전지의 병렬 운전 부하분담률 개선에 관한 연구 (A Study on the Improved Load Sharing rate in Paralleled Operated Lead Acid Battery by Using Microprocessor)

  • 이정민
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2000년도 전력전자학술대회 논문집
    • /
    • pp.493-497
    • /
    • 2000
  • A battery is the device that transforms the chemical energy into the direct-current electrical energy without a mechanical process. Unit cells are connected in series to obtain the required voltage while being connected in parallel to organize capacity for load current. Because the voltage drop down in one set of battery is faster than in two one it may result in the low efficiency of power converter with the voltage drop and cause the system shutdown. However when the system being shutdown. However when the system being driven in parallel a circular-current can be generated,. It is shown that as a result the new batteries are heated by over-charge and over-discharge and the over charge current increases rust of the positive grid and consequently shortens the lifetime of the new batteries. The difference between the new batteries and old ones is the amount of internal resistance. In this paper we can detect the unbalance current using the microprocessor and achieve the balance current by adjusting resistance of each set, The internal resistance of each set becomes constant and the current of charge and discharge comes to be balanced by inserting the external resistance into the system and calculating the change of internal resistance.

  • PDF

ILP 명령 스케쥴링에서의 복사 제거를 위한 낙관적 융합 기법 (Optimistic Colescing Technique for Copy Elimination in ILP Instruction Scheduling)

  • 박진표;문수묵
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.692-701
    • /
    • 1999
  • 수퍼스칼라(superscalar)나 VLIW 와 같은 명령어 수준 병렬화(ILP) 프로세서의 성능을 극대화하는 과감한 명령어 스케쥴링은 소프트웨어 파이프라이닝과같은 스케쥴링 과정을 거치면서 일반적인 복사 명령어 제거 기법으로 없앨 수 없는 서로 간섭하는 복사 명령을 많이 만들어내는데 루프 내부에 생성된 이러한 복사명령은 적절한 루프 펼침을 수행하여 간섭관계를 없앰으로서 제거할 수 있다. 본 논문에서는 이와 같이 루프 펼침이 수행된 루프 내부의 복사명령을 제거하는 기법으로 그래프 컬러링 상에 구현한 낙관적 융합기법을 제안한다. 그래프 컬러링에서의 융합기법은 간선의 개수가 많은 노드를 만들어 낼수 있으므로 채색성에 부정적인 영향을 주는 것으로 알려져 왔으나 본 기법에서는 융합되는 노드에 동시에 간섭하는 노드의 간선의 수가 줄어드는 긍정적인 영향을 최대한 이용하여 채색성을 높이고 융합된 노드에 대한 실제 버림(spill)이 일어나는 경우 유효 범위 분절(live range splitting)을 통하여 버림의 부담을 최대한 줄이도록 하였으며 이를 VLIW 스케쥴링 된 SPEC 정수벤치마크 루프내부의 복사 명령 제거에 적용한 결과 제거 가능한 복사 명령의 99%를 제거하면서도 버림명령은 다른 융합 기법과 비교하여 가장 적게 발생하는 우수한 결과를 얻을수 있었다.

PDOCM : MasPar머쉰상의 새로운 압축기법과 빠른 텍스트 축약 (PDOCM : Fast Text Compression on MasPar Machine)

  • 민용식
    • 한국음향학회지
    • /
    • 제14권1호
    • /
    • pp.40-47
    • /
    • 1995
  • 본 논문은 redundancy를 제거함으로 해서 데이타의 축약을 할 수 있는 새로운 방법론 즉, 병렬 컴퓨터인 MasPar 머쉰에 적합한 새로운 데이타 구조를 제시하고자 하는데 그 주된 목적이 있다. 이것을 실제로 구현한 결과, 본 논문에 제시된 방법인 PDOCM (Parallel Dynamic Octal Compact Mapping)은 기존의 방법중 가장 효율이 좋은 것으로 나타난 Huffman 코드와 비교할때는 평균적으로 $30\%$정도, bit-mapping방법과 비교할때는 평균적으로 $40\%$ 정도의 우수성을 보였다. 그리고 10 백만개의 영문자를 이용해서 MasPar 기계에서 64개의 프로세서를 이용하여 구현시킨 결과 54.188의 가속화율을 얻으므로서 우수한 방법임을 알 수가 있었다.

  • PDF

Star형 근거리 통신망 개발에 관한 연구 (A Study on the Development of Star Type LAN)

  • 유황빈;이대영
    • 한국통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.160-170
    • /
    • 1988
  • 본 논문에서는 토큰 링 방식을 기준으로하는 Star형 근거리 통신망을 구성하기 위하여 마이크로프로세서를 이용한 out board방식의 망접속 장치와 집중기의 하드웨어 및 소프트웨어 개발에 관하여 기술하고 있다. 망 접속 장치에는 직렬방식 및 병렬방식의 터미널을 최대 4까지 접속할 수 있으며, 입출력 데이터의 PAD 기능을 갖고 있어 어떠한 방식의 터미널도 접속이 가능하다. 또, 집중기에는 논리적 스위치 회로를 두어 고장난 망 접속장치를 우회 통과시켜 통신이 중단되지 않도록 하며, 데이터 전송시 송신밑 수신측 망 접속 장치사이를 직접 접속하는 Star형 근거리 통신망을 구성하여 송신및 수신측 망 접속 장치를 제외한 다른 망 접속 장치에서의 통과 지연을 줄이므로서 처리율 향상을 도모하였으며, 근거리 통신망 시스템의 구성은 각 기능별로 모듈화되어 기능 확장이나 방식 변경이 용이하다.

  • PDF

Homogeneous Transformation Matrix의 곱셈을 위한 병렬구조 프로세서의 설계 (A Parallel-Architecture Processor Design for the Fast Multiplication of Homogeneous Transformation Matrices)

  • 권두올;정태상
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권12호
    • /
    • pp.723-731
    • /
    • 2005
  • The $4{\times}4$ homogeneous transformation matrix is a compact representation of orientation and position of an object in robotics and computer graphics. A coordinate transformation is accomplished through the successive multiplications of homogeneous matrices, each of which represents the orientation and position of each corresponding link. Thus, for real time control applications in robotics or animation in computer graphics, the fast multiplication of homogeneous matrices is quite demanding. In this paper, a parallel-architecture vector processor is designed for this purpose. The processor has several key features. For the accuracy of computation for real application, the operands of the processors are floating point numbers based on the IEEE Standard 754. For the parallelism and reduction of hardware redundancy, the processor takes column vectors of homogeneous matrices as multiplication unit. To further improve the throughput, the processor structure and its control is based on a pipe-lined structure. Since the designed processor can be used as a special purpose coprocessor in robotics and computer graphics, additionally to special matrix/matrix or matrix/vector multiplication, several other useful instructions for various transformation algorithms are included for wide application of the new design. The suggested instruction set will serve as standard in future processor design for Robotics and Computer Graphics. The design is verified using FPGA implementation. Also a comparative performance improvement of the proposed design is studied compared to a uni-processor approach for possibilities of its real time application.