• 제목/요약/키워드: 공유 메모리 구조

검색결과 143건 처리시간 0.026초

템플릿 재사용을 통한 패러미터 효율적 신경망 네트워크 (Parameter-Efficient Neural Networks Using Template Reuse)

  • 김대연;강우철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.169-176
    • /
    • 2020
  • 최근 심층 신경망 (Deep Neural Networks, DNNs)는 모바일 및 임베디드 디바이스에 인간과 유사한 수준의 인공지능을 제공해 많은 응용에서 혁명을 가져왔다. 하지만, 이러한 DNN의 높은 추론 정확도는 큰 연산량을 요구하며, 따라서 기존의 사용되던 모델을 압축하거나 리소스가 제한적인 디바이스를 위해 작은 풋프린트를 가진 새로운 DNN 구조를 만드는 방법으로 DNN의 연산 오버헤드를 줄이기 위한 많은 노력들이 있어왔다. 이들 중 최근 작은 메모리 풋프린트를 갖는 모델 설계에서 주목받는 기법중 하나는 레이어 간에 패러미터를 공유하는 것이다. 하지만, 기존의 패러미터 공유 기법들은 ResNet과 같이 패러미터에 중복(redundancy)이 높은 것으로 알려진 깊은 심층 신경망에 적용되어왔다. 본 논문은 ShuffleNetV2와 같이 이미 패러미터 사용에 효율적인 구조를 갖는 소형 신경망에 적용할 수 있는 패러미터 공유 방법을 제안한다. 본 논문에서 제안하는 방법은 작은 크기의 템플릿과 레이어에 고유한 작은 패러미터를 결합하여 가중치를 생성한다. ImageNet과 CIFAR-100 데이터셋에 대한 우리의 실험 결과는 ShuffleNetV2의 패러미터를 15%-35% 감소시키면서도 기존의 패러미터 공유 방법과 pruning 방법에 대비 작은 정확도 감소만이 발생한다. 또한 우리는 제안된 방법이 최근의 임베디드 디바이스상에서 응답속도 및 에너지 소모량 측면에서 효율적임을 보여준다.

OpenCL을 이용한 임베디드 GPGPU환경에서의 AES 암호화 성능 개선과 평가 (Performance Enhancement and Evaluation of AES Cryptography using OpenCL on Embedded GPGPU)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.303-309
    • /
    • 2016
  • 최근, ARM Mali와 같은 여러 임베디드 프로세서들이 OpenCL과 같은 GPGPU 프레임워크를 지원함에 따라 기존 PC 환경에서 활용되던 GPGPU 기술이 임베디드 시스템 영역으로 확대 되고 있다. 그러나 임베디드 시스템은 PC와는 상이한 구조를 갖으며, 저전력이나 실시간성과 같은 성능이 더욱 중요하다. 본 논문에서는 임베디드 GPGPU환경에서 AES 암호화 알고리즘을 개방형 범용 병렬 컴퓨팅 프레임워크인 OpenCL을 사용하여 구현하고 이를 CPU만을 이용한 구현과 비교한다. 실험결과, 1000KByte의 데이터 사이즈의 128비트 AES 암호화 시에 OpenCL을 사용하여 GPU로 병렬 처리하는 것이 OpenMP를 사용하여 CPU상에서 병렬 처리한 방식보다 응답 시간은 최대 1/150, 에너지 소비량은 최대 1/290로 감소함을 확인하였다. 또한 호스트와 GPU 디바이스 간에 메모리를 공유하는 임베디드 구조의 특성에 최적화하여 메모리 복제를 하지 않는 기법을 적용하는 경우 응답시간과 에너지 소비량에서 최대 100% 이상의 추가적인 성능개선을 이룰 수 있었으며, 연구에서 사용한 데이터의 크기에 비례하여 더 높은 성능의 개선이 나타나는 것을 확인하였다.

ATM 멀티캐스트 스위치의 성능 향상을 위한 연구 (A Study for Improving Performance of ATM Multicast Switch)

  • 이일영;조양현;오영환
    • 한국통신학회논문지
    • /
    • 제24권12A호
    • /
    • pp.1922-1931
    • /
    • 1999
  • 멀티캐스트 트래픽의 특징은 한 노드에서 특정 다수노드로 셀을 전송하는 방법으로써 ATM 스위치의 중요한 기능으로 부각되고 있다. 그러나, 기존에 나와 있는 point-to-point 스위치로 멀티캐스트 기능을 수행할 경우 멀티캐스트 셀 뿐만 아니라 유니캐스트 셀도 복사망을 통과하게 되어 복사망에서 추가적인 부하가 발생된다. 이 추가적인 부하로 인하여 멀티캐스트 셀이 다른 셀과의 충돌로 셀이 손실되는 데드락 현상이 발생하여 전체 스위치 성능을 현저히 감소시킨다. 또한 입력 저장 스위치 (Input queued switch)구조는 전체 스위치의 성능을 저하시키는 HOL 블록킹(blocking)의 단점을 가지고 있다. 제안한 스위치 구조는 HOL 블록킹 및 데드락 현상을 줄이기 위하여 공유 메모리 스위치를 이용하였다. 스위치의 복잡도와 셀 처리 시간을 줄이고 처리율(throughput)의 향상을 위해 셀 형태에 따라 분리해서 경로 배정하는 방식과 제어부에서 최대 2N개의 셀들을 동시에 처리하는 스케줄링 기법을 이용하였다. 또한 특정 포트로 트래픽이 밀집되었을 때 발생하는 손실률을 줄이기 위하여 출력 메모리를 이용하였으며 메모리 효율성 향상을 위하여 입력 셀의 ?'?형태에 따라 셀들을 분리 저장하는 방식과출력 메모리에서 일정 시간이 지난 셀을 폐기하는 방식을 이용하였다. 제안한 스위치의 분석을 위하여 마코흐(Markov) 체인을 이용한 성능 해석을 실시하였고 버스트(burst) 트래픽 조건에서의 모의 실험을 통하여 제안한 방식과 기존의 방식간의 성능을 비교, 분석하였다.

  • PDF

하드웨어 지원의 재시도 없는 잠금기법 (Efficient Hardware Support: The Lock Mechanism without Retry)

  • 김미경;홍철의
    • 한국정보통신학회논문지
    • /
    • 제10권9호
    • /
    • pp.1582-1589
    • /
    • 2006
  • 잠금기법은 분산 병렬 시스템의 동기화에 필수적이다. 기존의 큐잉 잠금기법은 최초의 잠금 읽기와 잠금 경합발생 시 공유 데이터에 대한 잠금이 해제되었을 때 발생하는 잠금 읽기 재 시도로 두 개의 트래픽을 발생한다. 본 논문에서는 WPV(Waiting Processor Variable) 잠금기법이라 불리는 새로운 잠금기법을 제안한다 새로이 제안하는 기법은 오직 한 개의 잠금 읽기 명령을 사용한다. WPV 기법은 파이프라인 전송방식을 사용하여 최초의 잠금 읽기 단계에서 공유 데이터가 전송될 때까지 대기 한 후 잠금을 실시한다. 데이터에 대한 잠금을 수행중인 프로세서는 대기 상태의 다음 프로세서에 대한 정보를 저장하고 있으므로, 공유 데이터가 캐쉬 대 캐쉬 데이터 전송 기법에 의하여 대기중인 다음 프로세서로 바로 전송된다. 따라서 대기중인 프로세서 에 대한 변수는 연결 리스트 구조를 갖는다. 제안된 기법은 캐쉬 상태의 잠금기법을 사용하여 잠금 오버 헤드를 줄이고 다중 잠금 경합 발생시 FIFO를 유지하게 한다. 또한 본 논문에서는 기존의 메모리 및 캐쉬 큐잉 잠금기법에 대한 WPV 잠금기법의 해석적 모델링을 제시한다. WPV 잠금기법에 대한 시뮬레이션의 결과는 기존의 큐잉 잠금기법에 비하여 50%의 접근 시간의 감소를 보여주었다.

SAN 환경에서 공유 디스크 파일 시스템을 위한 전역 버퍼 관리자 (A Global Buffer Manager for a Shared Disk File System in SAN Clusters)

  • 박선영;손덕주;신범주;김학영;김명준
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권2호
    • /
    • pp.134-145
    • /
    • 2004
  • 네트워크를 통해 전송되는 데이타의 양이 급속히 증가함에 따라 확장성 있는 저장 시스템에 대한 사용자 요구가 증가하고 있다. 네트워크 연결형 자료 저장 시스템인 SAN(Storage Area Network)은 호스트와 디스크를 광채널 스위치로 연결하는 구조로서 저장 공간과 서버에 대한 확장성을 제공한다. SAN 환경에서는 다수의 호스트가 네트워크에 연결된 저장 장치를 공유하므로 공유 데이타에 대한 일관성 유지가 필요하다. 이를 위해 각 호스트가 수정한 데이타를 즉시 디스크에 반영하는 방법을 사용하고 있지만 이는 느린 디스크 접근 시간(Disk Access Time)으로 인해 시스템의 성능을 저하시키는 요인이 된다. 본 논문에서는 필요한 공유 데이타를 다른 호스트의 메모리를 통해서 직접 전송 받을 수 있도록 하여 공유 데이타의 접근 속도를 향상시킬 수 있는 전역 버퍼 관리자의 설계와 구현에 대해 소개한다. SANtopia 전역 버퍼 관리자는 SAN에 연결된 호스트들이 서로의 버퍼 캐시를 공유하도록 함으로써 블록 데이타로의 빠른 접근을 가능하게 한다. 마이크로 벤치마크를 통한 블록 단위 I/O의 성능 측정 결과, 전역 버퍼 관리자를 사용하는 것이 기존의 디스크 I/O를 사용하는 방법에 비해 약 1.8-12.8배 정도 빠른 성능을 보였으며 파일 시스템 벤치마크를 통한 성능 측정 결과. 전역 버퍼 관리자를 사용한 SANtopia 파일 시스템은 사용하지 않은 것과 비교해서 디렉터리 파일 시스템 콜의 경우 약 1.06배 정도 빠르고 일반 파일시스템 콜은 약 1.14배 정도 빠른 성능을 보였다.

병렬프로그램의 경합조건을 수행 중에 효율적으로 탐지하기 위한 레이블링 기법 (A Labeling Scheme for Efficient On-the-fly Detection of Race Conditions in Parallel Programs)

  • 박소희;우종정;배종민;전용기
    • 정보처리학회논문지A
    • /
    • 제9A권4호
    • /
    • pp.525-534
    • /
    • 2002
  • 병렬프로그램에서 경합 조건은 비결정적인 수행 결과를 초래하므로 디버깅을 위해 반드시 탐지되어야 한다. 이러한 경합을 수행 중에 탐지하는 기존의 기법들은 병행성 정보 생성 시에 공유 자료구조를 사용하여 심각한 병목현상을 발생시키거나, 병행성 정보 비교 시에 내포병렬성의 정도에 의존하는 비효율적인 시간 복잡도를 가진다. 본 논문에서는 개별 자료구조를 사용함으로써 병목현상을 제거하여 병행성 정보를 확장적으로 생성하며, 생성된 병행성 정보의 비교 시간을 상수적인 복잡도로 개선한 새로운 레이블링 기법을 제안한다. 그러므로 제안된 레이블링 기법의 확장성 및 효율성은 공유메모리와 메시지전달 프로그램뿐만 아니라 이를 혼합하여 사용하는 병렬프로그램에서도 효율적인 수행중 경합탐지를 가능하게 한다.

내포 병렬성을 가진 공유메모리 프로그램의 3차원 시각화 (The 3-Dimensional Visualization in Shared-Memory Programs with Nested Parallelism)

  • 박명철;허화라;하석운
    • 한국정보통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.53-58
    • /
    • 2008
  • 내포 병렬성을 가지는 병렬 프로그램은 동기화 없이 병행적으로 수행되는 양상으로 인하여 비결정적인 결과를 초래하는 경향이 있다. 이러한 오류를 탐지하기 위하여 다양한 시각화 기법이 이용되고 있지만, 공간의 제한성과 과다한 추상화로 인하여 직관성이 매우 저하되는 실정이다. 본 논문에서는 내포 병렬성을 가지는 복잡한 병렬 프로그램의 전역적 구조를 사용자에게 제공하는3차원 시각화 엔진을 제안한다. 제안된 시각화 엔진은 전역적 구조를 사용자에게 제공함으로서 프로그램의 이해를 용이하게 하고 효과적인 디버깅 환경을 제공한다.

무선 인터넷 프록시 서버 클러스터 성능 개선 (A Performance Improvement Scheme for a Wireless Internet Proxy Server Cluster)

  • 곽후근;정규식
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권3호
    • /
    • pp.415-426
    • /
    • 2005
  • 사회적으로 큰 관심의 대상이 되고 있는 무선 인터넷은 유선 인터넷과 달리 기술 환경과 그 특성상 여러 가지 제약점들을 가지고 있다. 대역폭이 낮고, 접속이 빈번하게 끊기며, 단말기내의 컴퓨팅 파워가 낮고 화면이 작다. 또한 사용자의 이동성 문제와 네트워크 프로토콜, 보안등에서 아직 기술적으로 부족한 부분을 보이고 있다 그리고 급속도로 증가하는 수요에 따라 무선 인터넷 서버는 대용량 트래픽을 처리할 수 있는 확장성이 요구되어지고 있다. 이에 본 논문에서는 무선 인터넷 프록시 서버 클러스터를 사용하여 앞에서 언급된 무선 인터넷의 문제와 요구들을 캐싱(Caching), 압축(Distillation) 및 클러스터 (Clustering)를 통하여 해결하려고 한다. TranSend는 클러스터링 기반의 무선 인터넷 프록시 서버로 제안된 것이나 시스템적인(Systematic) 방법으로 확장성을 보장하지 못하고 불필요한 모듈간의 통신구조로 인해 복잡하다는 단점을 가진다. 기존 연구에서 시스템적인 방법으로 확장성을 보장하는 All-in-one 이라는 구조를 제안하였으나 이 역시 모듈간의 통신 구조가 복잡하고 캐시간 협동성이 없는 단점을 가진다. 이에 본 논문에서는 모듈간의 단순한 통신 구조와 캐시간 헙동성을 가지는 클러스터링 기반의 무선 인터넷 프록시 서버를 제안한다. 16대의 컴퓨터를 사용하여 실험을 수행하였고 실험 결과 TranSend 시스템과 All-in-one 시스템에 비해 각각 54.86$\%$, 4.70$\%$의 성능 향상을 보였다. 캐시서버간 데이타를 공유할 수 있기 때문에 제안된 구조에서는 캐시서버 수에 무관하게 캐시 메모리 전체 크기를 일정하게 할 수 장점을 가진다. 반면에 All-in-one에서는 각 캐시서버가 모든 캐시 데이타를 가져야 하므로 캐시 메모리 전체 크기가 캐시 서버 수에 비례하여 증가한다.

3차 저장 장치의 장착을 위한 MIDAS-II의 확장

  • 김영성;강현철;김준
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권1호
    • /
    • pp.21-35
    • /
    • 2000
  • MIDAS-II는 한국전자통신연구원에서 개발한 바다 DBMS의 저장 시스템이다. 본 논문에서는, MIDAS-II가 대용량 멀티미디어 데이타 서버의 저장 시스템으로 기능하도록 광 디스크 쥬크박스 또는 테이프 라이브러리와 같은 3차 저장 장치를 효율적으로 장착하기 위한 확장에 대하여 기술하였다. 복수개의 저장 매체(platter, 예를 들어 디스크 또는 카트리지 테이프)로 구성된 3차 저장 장치용 볼륨 구조를 위하여 기존 MIDAS-II 디스크 볼륨 구조를 확장하여 3차 저장 장치 볼륨의 용량을 Tera 바이트급으로 확대하였다. 그리고 3차 저장 장치에 저장된 LOB(Large Object) 데이타를 효율적으로 처리하기 위하여 기존 MIDAS-II LOB 구조를 확장하였다. 또한 MIDAS-II 공유 메모리 구조, 프로세스 구조, 유틸리티 등을 확장하였고, 기존 응용 프로그램 운용에 변화를 주지 않기 위하여 MIDAS-II API 함수들의 프로토 타입을 그대로 유지한 채 그 내부 기능만 확장하였다. 또한 3차 저장 장치로부터의 데이타 검색 성능을 평가하여 본 논문의 3차 저장 장치 장착을 위한 MIDAS-II 확장의 적정성을 확인하였다. 이상의 확장 및 성능 평가는 모두 SunOS 5.4 환경에서 수행되었다.

  • PDF

낮은 복잡도의 Deeply Embedded 중앙처리장치 및 시스템온칩 구현 (Low-Complexity Deeply Embedded CPU and SoC Implementation)

  • 박성정;박성경
    • 한국산학기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.699-707
    • /
    • 2016
  • 중앙처리장치를 중심으로 하는 각종 내장형 시스템은 현재 각종 산업에 매우 광범위하게 쓰이고 있다. 특히 사물인터넷 등의 deeply embedded (심층 내장형) 시스템은 저비용, 소면적, 저전력, 빠른 시장 출시, 높은 코드 밀도 등을 요구한다. 본 논문에서는 이러한 요구 조건을 만족시키는 중앙처리장치를 제안하고, 이를 중심으로 한 시스템온칩 플랫폼을 소개한다. 제안하는 중앙처리장치는 16 비트라는 짧은 명령어로만 이루어진 확장형 명령어 집합 구조를 갖고 있어 코드 밀도를 높일 수 있다. 그리고, 다중사이클 아키텍처, 카운터 기반 제어 장치, 가산기 공유 등을 통하여 로직 게이트가 차지하는 면적을 줄였다. 이 코어를 중심으로, 코프로세서, 명령어 캐시, 버스, 내부 메모리, 외장 메모리, 온칩디버거 및 주변 입출력 장치들로 이루어진 시스템온칩 플랫폼을 개발하였다. 개발된 시스템온칩 플랫폼은 변형된 하버드 구조를 갖고 있어, 메모리 접근 시 필요한 클락 사이클 수를 감소시킬 수 있었다. 코어를 포함한 시스템온칩 플랫폼은 상위 언어 수준과 어셈블리어 수준에서 모의실험 및 검증하였고, FPGA 프로토타이핑과 통합형 로직 분석 및 보드 수준 검증을 완료하였다. $0.18{\mu}m$ 디지털 CMOS 공정과 1.8V 공급 전압 하에서 ASIC 프론트-엔드 게이트 수준 로직 합성 결과, 50MHz 동작 주파수에서 중앙처리장치 코어의 논리 게이트 개수는 7700 수준이었다. 개발된 시스템온칩 플랫폼은 초소형 보드의 FPGA에 내장되어 사물인터넷 분야에 응용된다.