• 제목/요약/키워드: 스레드

검색결과 276건 처리시간 0.028초

깊이별 분리 합성곱을 위한 다중 스레드 오버랩 시스톨릭 어레이 (Multithreaded and Overlapped Systolic Array for Depthwise Separable Convolution)

  • 윤종호;이승규;강석형
    • 반도체공학회 논문지
    • /
    • 제2권1호
    • /
    • pp.1-8
    • /
    • 2024
  • 깊이별 분리 합성곱 (Depthwise Separable Convolution)을 처리할 때, processing element (PE)의 저활용성은 시스톨릭 어레이 (SA)의 한계점 중 하나이다. 본 연구에서는 깊이별 합성곱의 처리량을 극대화하기 위한 새로운 SA 아키텍처를 제안한다. 더불어, 제안된 SA 는 깊이별 합성곱 계산 중에 유휴 PE 에서 후속 점별 합성곱 (pointwise convolution)을 수행하여 활용도를 증가시킨다. 모든 깊이별 합성곱 연산 후에는 모든 PE 를 활용하여 나머지 점별 합성곱 연산의 속도를 향상시킨다. 결과적으로, 제안된 128×128 SA 는 MobileNetV3 연산 시, 기본 SA 및 RiSA 와 비교하여 속도가 4.05 배, 1.75 배 향상되고, 에너지 소비량을 각각 66.7 %, 25.4 % 감소한다.

사고 발생에 대비한 OBD2 차량 운행 정보 블랙박스 (OBD2 Vehicle Operation Information Black Box System for Accident Preparedness)

  • 김준영;김준희;오형성;최재형;고경호;류명춘
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.279-280
    • /
    • 2024
  • 본 논문에서는 주행 중 차량의 상태를 실시간으로 모니터링함과 동시에, 페달 조작 여부를 확인할 수 있는 영상 촬영 및 저장 시스템을 제안한다. 개발된 차량 운행 정보 블랙박스는 블루투스 OBD2 커넥터를 통해 차량의 PID 값을 식별하고 수집한다. 이 데이터는 비동기 방식으로 처리되며, 라즈베리파이와 7인치 터치 디스플레이를 이용해 운전자에게 한눈에 보일 수 있는 형태로 정보를 제공한다. 특히, 멀티스레드를 활용하여 ECU 정보를 페달 조작 여부 영상에 표시하는 동시에 녹화하고, CSV 파일로 SD 카드에 실시간으로 저장한다. 수집된 차량 데이터와 영상 데이터는 예기치 못한 사고 발생 시 운전자의 과실 비율 측정과 대처행동을 입증하는 데 중요한 역할을 할 것으로 기대되며, 차량 정비 시 참고 자료로 활용될 수 있다.

  • PDF

이진 조작을 통한 정적 스택 보호 시 발생하는 명령어 밀림현상 방지 기법 (Instruction-corruption-less Binary Modification Mechanism for Static Stack Protections)

  • 이영림;김영필;유혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권1호
    • /
    • pp.71-75
    • /
    • 2008
  • 현재 많은 센서 운영체제에서는 메모리 제약 때문에 스레드 스택을 공유한다. 하지만 대부분의 대상 플랫폼에서는 MMU가 없어서 하드웨어적으로 스택 보호가 이루어지기 어렵다. 이러한 문제를 해결하기 위해 바이너리코드에 스택 보호 기능을 가진 래퍼 함수를 추가하고 바이너리 코드 안에 존재하는 스택 연산 명령어들을 스택 보호 기능을 가진 래퍼 함수호출로 바꾸어준다. 이때 스택 영역에 접근하는 명령어들과 스택 관리 모듈로의 분기 명령어간의 명령어 길이 차이에 의한 명령어 밀림현상이 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 밀림현상을 발생시키지 않고 임의의 명령어를 추가된 임의의 모듈을 호출하는 알고리즘을 제안하였다. 이 알고리즘은 제한된 도달 범위를 가지는 분기명령어를 반복적으로 사용하여 명령어 밀림현상 없이 추가된 임의의 모듈에 도달하게 한다. 본 논문에서 제안한 알고리즘은 센서 노드의 소프트웨어 보안 패치와 소프트웨어적 유지 보수를 용이하게 할 것이다.

캐시 메모리 동기화 전력 감소를 위한 이벤트 메커니즘에 대한 연구 (Research on Event Mechanism for Reducing Power Overheads in Cache Memory Synchronization)

  • 박영진;정하영;이용석
    • 전자공학회논문지CI
    • /
    • 제48권3호
    • /
    • pp.69-75
    • /
    • 2011
  • 본 논문에서는 다중 프로세서 구조에서 캐쉬 메모리 동기화 시 생기는 전력 오버헤드를 줄이기 위한 애니캐스트 방식의 이벤트 드리븐(Event Driven) 동기화 방법을 제안한다. 제안하는 동기화 방법은 기본적인 동기화 프로토콜에서 SHI(Snoop Hit Invalidate) 또는 SHR(Snoop Hit Read) 발생 시, 락 권한 획득에 실패 하였을 때 발생하는 불필요한 폴링 동작을 줄여 줌으로서 버스 대역폭이 낭비되는 것을 막아주고, 통신에 의한 전력 오버헤드를 감소시켜준다. 더 나아가 브로드캐스트 방식의 이벤트 드리븐 동기화 방법에 비해 불필요한 절전 상태 변화로 인하여 생기는 트랜지션 전력을 줄여 전력 소모를 더욱 감소시킬 수 있다는 장점이 있다. 시뮬레이션 결과 기존 스핀-락 방식에 비해 15.3% 정도의 에너지 절감효과를 얻을 수 있었고 브로드캐스트 방식에 비해서 4.7%의 에너지 절감 효과를 얻을 수 있었다. 따라서 제안하는 동기화 방법은 저전력 다중 프로세서 시스템에 적합한 방식이라고 할 수 있다.

GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현 (Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer)

  • 이상일;남기훈;정준모
    • 문화기술의 융합
    • /
    • 제3권4호
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network)는 기계학습 알고리즘 중에서도 이미지의 인식과 분류에 뛰어난 성능을 보이는 알고리즘 중 하나이다. CNN의 경우 간단하지만 많은 연산량을 가지고 있어 많은 시간이 소요된다. 따라서 본 논문에서는 CNN 수행과정에서 많은 처리시간이 소모되는 convolution layer와 pooling layer, fully connected layer의 연산수행을 SIMT(Single Instruction Multiple Thread)구조의 GPGPU(General-Purpose computing on Graphics Processing Units)를 통하여 병렬로 연산처리를 수행했다. 또한 convolution layer의 출력을 저장하지 않고 pooling layer의 입력으로 바로 사용함으로 메모리 접근횟수를 줄여 성능 향상을 기대했다. 본 논문에서는 이 실험검증을 위하여 MNIST 데이터 셋을 사용하였고 이를 통하여 제안하는 CNN 구조가 기존의 구조보다 12.38% 더 좋은 성능을 보임을 확인했다.

일반적인 GPU 트리 탐색과의 비교실험을 통한 GPU 기반 병렬 Shifted Sort 알고리즘 분석 (Analysis of GPU-based Parallel Shifted Sort Algorithm by comparing with General GPU-based Tree Traversal)

  • 김희수;박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1151-1156
    • /
    • 2017
  • 일반적으로 GPU 기반 트리 탐색을 수행할 경우 병렬 처리 속도가 생각보다 크게 향상되지 않는 경우가 대부분이다. 본 논문에서는 이러한 원인을 분석하고 그 분석 결과로 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위인 warp 내에서 분기문(if문)으로 인한 warp divergence가 일어나기 때문임을 제시한다. 또한 이러한 warp divergence를 최소화할 수 있는 병렬 shifted sort 알고리즘과의 비교를 통해 shifted sort 알고리즘이 일반적인 GPU 내 트리 탐색에 비해 우수한 성능을 보이는 구조임을 제시하였다. 분석 결과 GPU 기반 kd-tree 탐색에 비해 warp divergence가 발생하지 않은 shifted sort 탐색은 3차원 공간에서 데이터나 쿼리의 수가 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이 성능 차이는 데이터나 쿼리의 개수가 증가함에 따라 더 커지는 경향을 보였다.

PC 및 서버 상태관리를 위한 모니터링 시스템 개발에 관한 연구 (The Development of Monitoring System for PC and Server State Management)

  • 류창주;한승조
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1741-1746
    • /
    • 2016
  • 최근 시대적 배경에 맞추어 PC 및 개인서버를 효율적으로 사용하는 기술이 주목받고 있으며 대기업, 공공기관을 위한 서버관리 시스템과 PC 및 소형 서버관리를 위한 솔루션들이 유료로 상용화 중이다. 하지만 PC 관리 및 개인 서버관리를 위해 요금을 지불하는 것은 사용자에게 부담이 되며, 실제로 필요하지 않는 기능 역시 포함되어 있는 실정이다. 제안하는 PC 및 서버관리 시스템은 cpu, hdd, memory, response speed 모니터링 기능을 포함하며 이를 통해 PC 사용 수명을 연장할 것으로 기대되며 무료 배포를 통해 요금 부담 없이 사용 가능하다. 또한 제안하는 시스템의 서버 에이전트 프로그램은 단일 스레드를 기반으로 구동되므로 시스템 부하량이 미비하고 서버에 기능적 부담이 적다.

드론 시스템을 위한 메시지 우선순위 기반 TCP 통신 알고리즘 (A Message Priority-based TCP Transmission Algorithm for Drone Systems)

  • 최준혁;김보람;이동익
    • 한국전자통신학회논문지
    • /
    • 제13권3호
    • /
    • pp.509-516
    • /
    • 2018
  • TCP는 메시지 전송에 광범위하게 쓰이는 잘 알려진 송수신 프로토콜이다. TCP의 긴급 메커니즘은 우선순위가 높은 메시지를 전송할 때 규칙 역할을 한다. 긴급 메커니즘은 우선순위가 높은 메시지의 발생 사실을 수신 노드에 미리 알려줌으로써 수신 노드로 하여금 미리 준비하도록 돕는다. 하지만 TCP의 긴급 메커니즘은 우선순위가 높은 메시지의 즉시 또는 빠른 전송을 보장하지는 않는다. 따라서 TCP에 보통 메시지의 신뢰적인 전송과 메시지의 우선순위에 따른 차별 전송 기능을 제공하기 위에 우선순위 기반 전송의 기능이 필요하다. 본 논문은 TCP 프로토콜을 위한 멀티 쓰레드 환경에서의 우선순위 규를 이용한 우선순위 기반 전송 알고리즘을 제안한다. 제안된 알고리즘의 효율성은 다른 우선순위 레벨을 가진 여러 메시지를 전송하는 실험 환경을 통해 검증되었다.

효율적인 정보 검색 시스템 구축을 위한 새로운 프로세스 구조 (A New process Structure for Constructing Efficient Information Retrieval Systems)

  • 고형대;유재수;김병기
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.76-86
    • /
    • 1997
  • 기존 정보 검색 시스템의 프로세스 구조는 사용자를 위한 클라이언트 프로세스와 정보검색 시스템을 위한 서버 프로세스가 일대일로 대응하는 간단한 구조이다. 그러 나 사용자 마다 사용자 인터페이스, 검색 모델, 자동색인 및 저장 시스템으로 구성되 어 있는 큰 서버 프로세스가 하나씩 할당되기 때문에 많은 수의 사용자가 정보검색 시스템을 사용할 때 시스템 오버헤드가 커져 시스템을 사용할 수 없는 문제를 발생시 킨다. 본 논문에서는 이와 같은 기존 정보 검색 시스템의 프로세스 구조가 갖는 문제 점을 해결한 효율적인 정보 검색 시스템 구축을 위한 새로운 프로세스 구조를 제안한 다. 제안된 프로세스 구조는 정보 검색 시스템의 전체적인 동작 성능 및 컴퓨터 시스 템 자원의 효율적인 활용에 기여할 수 있게 된다. 제안된 프로세스의 구축은 프로세 스 오버헤드를 최소화하여 많은 수의 사용자 환경을 지원할 수 있는 다중 스레드와 전체 시스템의 성능을 향상시키기 위해 제공되는 트랜잭션 처리 모니터에 근거한다.

  • PDF

소규모 대화형 시스템을 위한 자바 가비지 콜렉션 (Java Garbage Collection for a Small Interactive System)

  • 권혜은;김상훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권12호
    • /
    • pp.957-965
    • /
    • 2002
  • CLDC는 가비지 콜렉션을 위해, 가비지 콜렉션이 필요한 시점에 모든 작업을 수행하는 스탑더 월드 가비지 콜렉션 알고리즘을 일반적으로 사용한다. 이 방법은 길고 예측할 수 없는 지연시간으로 인하여 대화형 자바 임베디드 시스템에서는 부적당하다. 본 논문에서는 평균 지연시간을 줄이고 대화형 환경을 지원하는 가비지 콜렉션 알고리즘을 제안한다. 가비지 콜렉터는 객체의 크기에 따라 할당 위치를 결정하는 할당기와 점진적 마크-회수 알고리즘을 사용하는 콜렉터로 구성된다. 가비지 콜렉터는 스레드 스케줄링 정책에 따라 주기적으로 호출되며, 할당기는 콜렉션 주기 동안 마크된 상태의 객체를 할당한다. 또한 콜렉션 주기의 마지막에 비트 패턴의 의미를 교환하는 칼라토글방식을 사용한다. 제안한 가비지 콜렉터와 스탑더월드 마크-회수 가비지 콜렉터의 성능을 비교하였으며, 이 비교 실험을 통해 평균 지연시간은 감소하고, 균일하고 낮은 응답시간을 제공함을 확인하였다.