• 제목/요약/키워드: 다중프로세서 시스템

검색결과 281건 처리시간 0.022초

HiPi-bus 구조의 다중 프로세서 시스템에서의 잠금장치 (A Lock Mechanism for HiPi-bus Based Multiprocessor Systems)

  • 윤용호;임인칠
    • 전자공학회논문지B
    • /
    • 제30B권2호
    • /
    • pp.33-43
    • /
    • 1993
  • Lock mechanism is essential for synchronization on the multiprocessor systems. Lock mechanism needs to reduce the time for lock operation in low lock contention. Lock mechanism must consider the case of the high lock contention. The conventional lock control scheme in memory results in the increase of bus traffic and memory utilization in lock operation. This paper suggests a lock scheme which stores the lock data in cache and manages it efficiently to reduce the time spent in lock operation when the lock contention is low on a multiprocessor system built on HiPi-bus(Highly Pipelined bus). This paper also presents the design of the HIPi-CLOCK (Highly Pipelined bus Cache LOCK mechanism) which transfere the data from on cache to another when the lock contention is high. The designed simulator compares the conventional lock scheme which controls the lock in memory with the suggested HiPi-CLOCK scheme in terms of the RMW(Read-Modify-Write) operation time using simulated trace. It is shown that the suggested lock control scheme performance is over twice than that of the conventional method in low lock contention. When the lock contention is high, the performance of the suggested scheme increases as the number of the shared lock data increases.

  • PDF

멀티프로세서 태스크 할당을 위한 GA과 SA의 비교 (Comparison of Genetic Algorithms and Simulated Annealing for Multiprocessor Task Allocation)

  • 박경모
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2311-2319
    • /
    • 1999
  • 병렬 컴퓨팅에 있어 NP-complete 문제인 태스크 할당문제에 대한 두 가지 휴리스틱 알고리즘을 제시한다. 할당문제는 분산 메모리 멀티컴퓨터의 멀티 프로세싱 노드에 다중통신 태스크들을 최적의 매핑을 찾는 것이다. 태스크들을 목표 시스템 구조의 노드들에 매핑시키는 목적은 해법 품질에 손상 없이 병렬 실행시간을 최소화하기 위함이다. 많은 휴리스틱 기법들이 만족한 매핑을 얻기 위해 채택되어 왔다. 본 논문에서 제시되는 휴리스틱 기법은 유전자 알고리즘(GA)과 시뮬레이티드 어닐링(SA) 기법에 기반을 둔다. 매핑 설정을 위한 총 계산 비용으로 목적함수를 수식화하고 휴리스틱 알고리즘들의 성능을 평가한다. 랜덤, 그리디, 유전자, 어닐링 알고리즘들을 사용하여 얻은 해법의 품질과 시간을 비교한다. 할당 알고리즘 시뮬레이션 연구를 통한 실험적 결과를 보여준다.

  • PDF

2차원 토러스 기반 다중 디스크 데이터 배치 병렬 유전자 알고리즘 (A 2-Dimension Torus-based Genetic Algorithm for Multi-disk Data Allocation)

  • 안대영;이상화;송해상
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.9-22
    • /
    • 2004
  • 본 논문에서는 NP-Complete 부류에 속하는 다중 디스크 데이터 배치 문제를 해결하기 위한 병렬 유전자 알고리즘을 제안한다. 이 문제는 디스크 입출력 처리의 병렬성이 극대화되도록 Binary Cartesian Product File의 데이터 블록들을 디스크어레이에 배치하는 방식을 찾는 것이다. 이 문제를 해결하기 위하여 제안되었던 DAGA 방식은 순차 유전자 알고리즘(Genetic Algorithm)으로서, 이전에 제안되었던 다른 방식에 비해 디스크 수에 대한 제약을 없애면서도 우수한 결과를 제공함을 보여 주었으나 시뮬레이션 시간이 너무 커서 큰 용량의 데이터 구성에 대한 시뮬레이션을 어렵게 하는 문제점이 있었다. 본 논문에서는 DAGA의 시뮬레이션 시간 단축을 위한 방식으로서, 2차원 토러스(2-Dimension Torus) 기반 병렬 유전자 알고리즘(ParaDAGA)을 제안한다. ParaDAGA는 분산 객체 모형을 기반으로 설계되었으며, 단일 프로세서 시스템에서 구현된 병렬처리 컴퓨터 시뮬레이터에서 수행되도록 구현하였다. 시뮬레이션 연구를 통하여, ParaDAGA의 시뮬레이션 변수 값이 결과에 주는 영향을 분석하였고, ParaDAGA 방식이 DAGA 방식에 비해 우수한 결과를 제공할 수 있는지를 실험하였다. 실험 결과는 ParaDAGA 방식이 순차 알고리즘인 DAGA보다 알고리즘 수행 시간 뿐 아니라, 찾아낸 결과도 우수함을 보여준다.

고속 저잡음 PLL 클럭 발생기 (A High Speed and Low Jitter PLL Clock generator)

  • 조정환;정정화
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.1-7
    • /
    • 2002
  • 본 논문에서는 다중 PFD(Phase Frequency Detector)와 적응 전하펌프 회로를 설계하여 지터 잡음 특성과 주파수 획득 과정을 향상시킨 새로운 PLL 클럭 발생기를 제안한다. 기존의 PLL은 넓은 데드존과 듀티 사이클 특성을 갖고 있기 때문에 지터잡음을 발생하고, 긴 지연시간 때문에 고속 동작에는 부적합하다. 본 논문에서는 이러한 문제를 해결하기 위하여, TSPC(True Single Phase Clocking) 회로를 이용하여 다중 구조를 갖는 PFD를 설계하였다. 데드존 특성, 듀티 사이클의 제한조건을 개선할 수 있도록 회로를 설계하였으며, 탁월한 지터잡음 성능을 향상시킬 수 있었다. 또한 적응 전하펌프 회로를 사용하여 PLL을 설계하였으며 루프필터의 전하펌프 전류를 증가시킴으로써 주파수 획득 특성을 개선 할 수 있었다. Hspice 시뮬레이션을 수행한 결과, 제안한 PLL은 데드존이 0.01ns 미만이고, 입력신호의 듀티 사이클에 무관하며, 50ns의 빠른 획득시간을 갖는 것을 확인할 수 있었다. 따라서 제안된 회로는 고성능 마이크로프로세서 및 디지털시스템에 적용될 수 있다.

스트라이드 배열 병합 방법의 데이터 선인출 효과 (Data Prefetching Effect of the Stride Merging-Arrays Method)

  • 정인범;이준원
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1429-1436
    • /
    • 1999
  • 데이타들에 대한 선인출 효과를 얻기 위하여 캐쉬 메모리의 캐쉬 블록은 다중 워드로 구성된다. 그러나 선인출된 데이타들이 사용되지 않을 경우 캐쉬 메모리가 낭비되고 따라서 캐쉬 실패율이 증가한다. 데이타 배열 병합 방법은 캐쉬 실패 원인의 하나인 캐쉬 충돌 실패를 감소시키기 위하여 사용되고 있다. 그러나 기존의 배열 병합 방법은 유용하지 못한 데이타들을 캐쉬 블록에 선인출하는 현상을 보인다. 본 논문에서는 이러한 현상을 개선한 스트라이드 배열 병합을 제안한다. 모의시험에서 캐쉬 블록이 다중 워드로 구성된 경우 스트라이드 배열 병합은 캐쉬 충돌 실패를 감소시킬 뿐 만 아니라 유용한 데이타 선인출을 증가 시키므로 캐쉬 성능을 향상시킴을 보여준다. 또한 이렇게 향상된 캐쉬 성능은 프로세서 증가에 따른 확장성 있는 프로그램 성능을 나타낸다.Abstract The cache memory is composed of cache lines with multiple words to achieve the effect of data prefetching. However, if the prefetched data are not used, the spaces of the cache memory are wasted and thus the cache miss rate increases. The data merging-arrays method is used for the sake of the reduction of the cache conflict misses. However, the existing merging-arrays method results in the useless data prefetching. In this paper, a stride merging-arrays method is suggested for improving this phenomenon. Simulation results show that when a cache line is composed of multiple words, the stride merging-arrays method increases the cache performance due to not only the reduction of cache conflict misses but also the useful data prefetching. This enhanced cache performance also represents the more scalable performance of parallel applications according to increasing the number of processors.

집중 충돌 병렬 처리를 위한 효율적인 다중 코어 트랜잭셔널 메모리 (Multi -Core Transactional Memory for High Contention Parallel Processing)

  • 김승훈;김선우;노원우
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.72-79
    • /
    • 2011
  • 다중 코어 프로세서의 보급과 더불어 이를 효율적으로 활용하기 위한 병렬 프로그래밍의 중요성은 나날이 강조되고 있다. 트랜잭셔널 메모리는 병렬 프로그래밍의 핵심적인 요소인 동기화(Synchronization)를 위해 제안된 구조로서 lock을 사용한 동기화로 인해 발생하는 병렬성 저하, deadlock 등의 문제를 극복할 수 있다. 본 논문은 높은 수준의 contention 상황에 따른 효율적인 트랜잭셔널 메모리의 구조에 대한 이론적인 분석을 제시하며 시뮬레이션을 통해 분석의 타당성을 확인한다. 시뮬레이션 환경은 하드웨어 트랜잭셔널 메모리 (Hardware Transactional Memory) 시스템으로 구성되었으며 이론의 검증을 위해 STAMP 벤치마크와 높은 contention을 유발하는 프로그램을 시뮬레이션 하였다. 또한 트랜잭셔널 메모리를 적용한 dining philosopher problem의 모델링을 통해 효율적인 자원 할당 방안에 있어 lazy 데이터 관리 정책이 유리함을 보였다.

실시간 LWIR 밴드 영상 처리를 위한 병렬 클러스터링 기술 (Parallel clustering technology for real-time LWIR band image processing)

  • 조용진;이규승;홍성하;오종우;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.158-158
    • /
    • 2017
  • 비닐포장 하부에 위치한 콩의 생장 초기에 발생한 초엽을 인식하기 위한 연구를 수행중이다. 선행 연구에서 비닐포장에 접촉한 콩 초엽으로 인해 비닐포장 상부 표면의 열 반응 분포에 변화가 있음을 발견하였다. 현장에서 주행 중에 콩 초엽의 위치를 실시간으로 인식하고 연동된 선형 또는 회전형 엑츄에이터를 제어하여 정확한 위치에 천공을 수행하기 위해서는 계측 시스템과 제어 시스템간의 시간적 차이를 최소할 수 있는 실시간 신호 처리 기술이 필수적이다. 선행 연구에서 사용한 다중 IR 센서의 분해능은 $16{\times}4pixel$이며 주파수는 3 Hz로, 폭이 30cm 내외인 비닐포장 상부의 정밀 분석에 한계가 있음을 발견하였다. 이를 해결하기 위하여 분해능과 계측 주기를 개선할 수 있는 초소형 ($1cm{\times}1cm{\times}1cm$) 열화상 센서를 이용하였다. LWIR(Longwave infrared)영역에 해당하는 $8{\mu}m{\sim}14{\mu}m$의 영역에서 $0.05^{\circ}C$의 분해능을 보이는 $ Lepton^{TM}$ (500-0690-00, FLIR, Goleta, CA)모델을 사용하였다. 프레임당 $80{\times}60$ 픽셀의 정보가 2 Byte의 단위로 계측이 되며 9 Hz의 주파수로 대상면의 열 분포를 측정할 수 있다. 이론적으로 초당 정보 전송량은 86,400 Byte ($80{\times}60{\times}2{\times}9$)이며, 1 m를 진행하는 주행형 천공기에 적용할 경우 1 프레임당 10cm 정도의 면적을 측정하므로, 최대 위치 판정 분해능은 약 10 cm / 60 pixel = 0.17 cm/pixel로 상대적으로 정밀한 위치 판별이 가능하다. $80{\times}60{\times}2Byet$의 정보를 0.1초 이내에 분석해야 하는 기술적 과제를 해결하기 위하여 천공 작업기에 적합한 상용 SBC(Single board computer)의 클럭 속도(1 Ghz)로 처리 가능한 공간 분포 분석 알고리즘을 개발하였다. 전체 이미지 도메인을 한 번에 분석하는데 소요되는 시간을 최소화하기 위하여 공간정보 행렬을 균등히 배분하고 별도의 프로세서에서 Feature를 분석한 후 개별 프로세서의 결과를 경합식으로 판정하는 기술을 연구하였다. 오픈 소스인 MPICH(www.mpich.org) 라이브러리를 이용하여 개발한 신호 분석 프로그램을 클러스터링으로 연동된 개별 코어에 설치/수행 하였다. 2D 행렬인 열분포 정보를 공간적으로 균등 분배하여 개별 코어에서 행렬의 Spatial domain analysis를 수행하였다. $20{\times}20$의 클러스터링 단위를 이용할 경우 총 12개의 코어가 필요하였으며, 초당 10회의 연산이 가능함을 확인하였다. 병렬 클러스터링 기술을 이용하여 1m/s 내외의 주행 속도에 대응이 가능한 비닐포장 상부 열 분포 분석 시스템을 구현하였다.

  • PDF

저전력 고성능 뱅크-승격 TLB 구조 (A High Performance and Low Power Banked-Promotion TLB Structure)

  • 이정훈;김신덕
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권4호
    • /
    • pp.232-243
    • /
    • 2002
  • TLB(translation lookaside buffer) 성능 향상을 위한 전형적인 방법으로 TLB로 하여금 더 많은 엔트리 수를 지원하는 방법, 페이지 크기를 증대시키는 방법, 그리고 다중 페이지 크기를 지원하는 방법이다. 현재 TLB 성능을 높이기 위한 가장 좋은 방법으로 다중 페이지 크기를 지원하는 연구가 효과적이다. 다중 페이지 크기를 지원하는 방법들 중에서 가장 적합한 것은 운영체제나 컴파일러로부터 일정한 정보를 받아서 가장 적합한 페이지 크기를 TLB에 할당하는 것이다. 그러나 운영체제의 시스템 영역에서 는 이러한 방식이 가능하나 사용자 영역에서는 현실적으로 이러한 방식을 지원하기 어렵기 때문에 우리는 사용자 영역까지 운영체제의 지원 없이 이중 페이지를 지원할 수 있는 새로운 TLB 구조를 제안하고자 한다. 고성능을 보장하기 위한 방법으로 이중페이지를 하드웨어 방식으로 지원하는 방식을 제시하고, 또한 저전력의 효과를 높이기 위하여 하나의 완전 연관 TLB를 두 개의 서버 TLB로 나누는 방식을 사용하였다. 이러한 두 가지 방식을 내장형 프로세서에 적합하도록 하나로 집적화 하여 저전력과 고성능의 효과를 모두 얻을 수 있었다. 시뮬레이션 결과에 따르면 적은 엔트리만을 사용하고도 높은 성능 향상효과를 얻을 수 있으며 또한 완전 연관 TLB에 비해 거의 50%이상 소비전력을 줄이는 효과를 얻을 수 있다.

선박용 밸브의 내부 누설 진단을 위한 음향방출신호의 머신러닝 기법 적용 연구 (Diagnosis of Valve Internal Leakage for Ship Piping System using Acoustic Emission Signal-based Machine Learning Approach)

  • 이정형
    • 해양환경안전학회지
    • /
    • 제28권1호
    • /
    • pp.184-192
    • /
    • 2022
  • 밸브의 내부 누설 현상은 밸브의 내부 부품의 손상에 의해 발생하며 배관 시스템의 사고와 운전정지를 일으키는 주요 요인이다. 본 연구는 버터플라이형 밸브의 내부 누설에 따라 배관계에서 발생하는 음향방출 신호를 이용하여 배관 가동 중 실시간 누설 진단의 가능성을 검토하였다. 이를 위해 밸브의 작동 모드별로 측정한 시간영역의 AE 원시신호를 취득하였으며 이로부터 구축한 데이터셋은 데이터 기반의 인공지능 알고리즘에 적용하여 밸브의 내부 누설 유무를 진단하는 모델을 생성하였다. 누설 유무진단을 분류의 문제로 정의하여 SVM 기반의 머신러닝과 CNN 기반의 딥러닝 분류 알고리즘을 적용하였다. 데이터의 특징 추출에 기반한 SVM 분류 모델의 경우, 이진분류 모델에서 구축된 모델에 따라 83~90%의 정확도를 나타냈으며, 다중 클래스인 경우 분류 정확도가 66%로 감소하였다. 반면, CNN 기반의 다중 클래스 분류 모델의 경우 99.85%의 분류 정확도를 얻을 수 있었다. 결론적으로 밸브 내부 누설 진단을 위한 SVM 분류모델은 다중 클래스의 정확도 향상을 위해 적절한 특징 추출이 필요하며, CNN 기반의 분류모델은 프로세서의 성능 저하만 없다면 누설진단과 밸브 개도 분류에 효율적인 접근방법임을 확인하였다.

다중 멀티미디어 스트리밍을 위한 멀티코어 시스템 기반의 실시간 스케줄링 기법 (A Real-Time Scheduling Technique on Multi-Core Systems for Multimedia Multi-Streaming)

  • 박상수
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1478-1490
    • /
    • 2011
  • 멀티코어 프로세서는 멀티미디어 스트리밍에 있어서 비교적 낮은 비용에 높은 성능을 보인다는 장점 때문에 스마트폰, 스마트 TV, 셋톱박스 등 관련 산업계에서 큰 관심을 받고 있다. 멀티미디어 데이터를 처리하기 위해서는 주기적인 태스크의 시간 제약성을 만족시킬 수 있는 스케줄링 알고리즘이 필요하다. Pfair 스케줄링 알고리즘은 이론상으로 멀티코어 상에서 모든 태스크의 시간 제약성을 만족하는 동시에 100%의 이용률을 달성할 수 있지만 코어간에 태스크의 빈번한 이동이 필요하고 매 스케줄링 시점에 시스템 전역에 대한 동기화가 필요하는 등 스케줄링을 위한 오버헤드가 매우 높다. 이러한 문제점을 개선하기 위해 본 논문에서는 코어 간의 이동이 꼭 필요할 경우에만 전체 코어의 스케줄링을 수행하고 평상시에는 각 코어별로 독립적인 스케줄링을 수행하도록 하는 HPGP 스케줄러를 제안한다. 시뮬레이터를 통한 실험 결과 기존의 Pfair 알고리즘에 비해 스케줄링 오버헤드가 현격히 감소하는 것을 알 수 있으며 80% 이하의 이용률을 갖는 태스크 집합에서는 스케줄링 오버헤드가 거의 발생하지 않는 것을 확인하였다.